SLOW-Austauschrunde zu Programmiervorlagen

Im Anschluss an den SLOW 2026 wollen wir eine kleine Projektgruppe gründen, die den Austausch über unsere Programmiervorlagen vertieft.
Der erste Schritt soll sein, sich in 2 Terminen die verschiedenen (Word-)Vorlagen zu zeigen. Dabei können wir schonmal viel über Aufbau und Unterschiedlichkeit lernen. Daran anschließend gibt es die Idee, sich regelmäßig auszutauschen, um das mögliche Entstehen von CSV-Datenbanken oder anderen Formaten miteinander zu diskutieren und zu optimieren.

Die ersten beiden Termine für den Austausch sind
Freitag der 26. Juni, 10-11:30 Uhr
und Freitag der 24. Juli, 10-11:30 Uhr

Die Termine finden bei Webex statt:
https://baua.webex.com/wbxmjs/joinservice/sites/baua/meeting/download/1456794fd8ee4c70aefcb84676129975?MTID=m58d484b2d16d2a6dbd25014d1658e45b
Meeting-Kennnummer (Zugriffscode): 2785 383 8093

Diese Einladung geht an alle interessierten Kolleginnen und Kollegen, wir freuen uns über eine rege Teilnahme!
Bei Fragen oder Wunsch nach Aufnahme in den Verteiler: nold.johanna@baua.bund.de

Austauschtreffen für LimeSurvey Enthusiasten am 21.05.2026

Beim SLOW 2026 in Nürnberg ist bei mehreren Instituten der Wunsch entstanden, den Austausch rund um LimeSurvey stärker zu verstetigen und den „SLOW-Drive“ auch über SLOW hinaus mitzunehmen.

Viele Institute setzen inzwischen regelmäßig auf LimeSurvey, oft mit sehr ähnlichen Herausforderungen, Workarounds und Entwicklungsbedarfen. Gleichzeitig entstehen an vielen Stellen individuelle Lösungen, ohne dass man voneinander weiß oder voneinander profitieren kann. Das würden wir gerne ändern.

LIfBi, DZA FReDA und DeZIM eint aktuell die praktische Arbeit mit LimeSurvey. Deshalb treffen wir uns am 21.05.2026 von 13:30 – 15:30 online und besprechen diese Agenda:

Kurz-Vorträge:

  • Lifbi: Metadatenbasierter Import-Prozess von Surveys über LimeSurvey API
  • DZA: Von csv zu lss und zurück: Metadaten-Konversion für LimeSurvey via Python (Experimentierstatus)
  • FREDA: Übersetzungsprozess mit neu entwickeltem Import- und Export-Tool
  • DeZIM: Prototyp für einen Incentive-Service

Danach diskutieren wir noch über:

  • Macht ein gemeinsamer Austauschkanal Sinn, um unkompliziert Fragen stellen zu können, wenn man bei LimeSurvey nicht weiterkommt?
  • Wo gibt es infrastrukturelle Überschneidungen, bei denen ähnliche Lösungen entwickelt werden? Wie lassen sich Code oder Prozesse teilen, die für ähnliche Problemstellungen universell nutzbar sind?
  • Aufbau eines gemeinsamen Repos? (z. B. für JavaScript-Bibliotheken, Fragetemplates, Designvorlagen, API-Funktionen oder Prozessdokumentationen)?

Teilnehmen: https://teams.microsoft.com/meet/322495850071546?p=kxnA5784ZDhuxDFqLU

Besprechungs-ID: 322 495 850 071 546

Passcode: 3YG6LP7h

Alle LimeSurvey Interessierten sind herzlich eingeladen!

SLOW 2026 in Nürnberg: Drei Tage Werkstatt für Survey‑Praxis, Datenqualität und Zusammenarbeit

Der SLO‑Workshop 2026 in Nürnberg war erneut das, was SLOW im Kern ausmacht: ein gemeinsamer Denk‑ und Arbeitsraum für Menschen, die große Surveys verantworten, weiterentwickeln oder kritisch begleiten. Drei Tage lang ging es um sehr konkrete Praxisprobleme – von Rednerlisten über Incentives, Metadaten und Panelpflege bis hin zu KI‑gestützter Kodierung offener Angaben. Vieles davon ist nicht neu, aber selten wird so offen, detailliert und projektübergreifend darüber gesprochen.

 

Moderation, Macht und Rednerlisten

Gleich zu Beginn stand ein Thema auf der Agenda, das auf den ersten Blick wenig „methodisch“ wirkt, aber strukturell zentral ist: quotierte Rednerlisten. Diskutiert wurde weniger das Instrument an sich, sondern die damit verbundenen Hürden. Quotierte Rednerlisten brauchen Moderation, sie machen Ungleichheiten sichtbar und werfen Fragen nach Intersektionalität und der Berücksichtigung nicht‑binärer Personen auf. Gleichzeitig wurde betont, dass Rednerlisten – egal in welcher Form – für viele eine entlastende Struktur darstellen. Einigkeit bestand darin, dass dieses Instrument gesellschaftlichen Sexismus nicht beseitigt, aber ausprobiert werden sollte. Auch und gerade bei SLOW selbst. Bemerkenswert war die klare Benennung der Verantwortung männlich gelesener Teilnehmer, das Thema aktiv einzubringen.

Feldarbeit ohne Pausen, Incentives ohne Bargeld?

Mehrere Sessions drehten sich um praktische Probleme dauerhafter oder hochfrequenter Befragungsfelder. Bei sogenannten „High‑Frequency“-Befragungen gibt es keine natürlichen Feldpausen für Instrumentenüberarbeitungen oder sicherheitsrelevante Updates. Der pragmatische Konsens: kurze, gut kommunizierte Serviceunterbrechungen in Randzeiten sind vertretbar, etwa ergänzt durch Maintenance‑Seiten.

Eng damit verknüpft war die Diskussion um Incentives. Prepaid‑Cash ist wirksam, aber zunehmend problematisch – organisatorisch, international, reputational. Alternativen wie Postpaid‑Cash, Gutscheine, Spendenoptionen oder Punktesysteme werden inzwischen breit eingesetzt und vielfach gut angenommen. Wichtig ist weniger die konkrete Form als Transparenz und zeitnahe Auszahlung. Auffällig war auch, wie selbstverständlich IBANs angegeben werden, wenn der Prozess erklärbar ist.

Panelbereinigung, Attrition und die Frage nach „Kosmetik“

Ein wiederkehrendes Spannungsfeld betrifft den Umgang mit wiederholten Wellenaussetzern. Während diese für engmaschige Längsschnittanalysen kaum nutzbar sind, können sie für Querschnitte oder andere Analyseformen weiterhin relevant sein. Ob man sie im Panel hält, ist weniger eine normative als eine Design‑ und Kostenfrage. Deutlich wurde auch: Kennzahlen wie Attrition und Response Rate sind oft schwer vergleichbar und sollten nicht aus rein kosmetischen Gründen optimiert werden. Hinzu kommen datenschutzrechtliche Überlegungen, etwa die Frage, wie lange ein einmal gegebenes Panel‑Einverständnis tatsächlich trägt.

Preloads, Variablennamen und Harmonisierung

Technischer wurde es bei Preloads, Variablennamen und Harmonisierung. Preloads sind ein wichtiges Mittel zur Verkürzung der Befragungsdauer, bergen aber Risiken: Überfilterung, geringe Fallzahlen und potenzielle Re‑Identifikation. Konsens bestand darin, dass Preloads präzise dokumentiert werden müssen – Herkunft, Bildung, Einsatzorte. Bei Variablennamen blieb die alte Frage offen: sprechend oder systematisch durchnummeriert? Ein Mittelweg zeichnet sich ab, etwa durch zusätzliche Ebenen wie „concept“ oder klare Versionierungen. Besonders sensibel diskutiert wurde die Harmonisierung von Geschlecht, gerade bei kleinen Fallzahlen und im Spannungsfeld zwischen Differenzierung und Datenschutz.

Metadaten als Rückgrat – nicht als Anhängsel

Ein Schwerpunkt des zweiten Tages lag auf Metadaten. Schnell wurde klar, wie schwer eine saubere Abgrenzung zu Paradaten fällt und wie sehr der Nutzen von Metadaten von der jeweiligen Zielstellung abhängt. Dennoch war der Tenor eindeutig: Strukturierte Metadaten sind kein Luxus, sondern Voraussetzung für Qualität, Nachvollziehbarkeit und Automatisierung. Diskutiert wurden einfache, offene Lösungen wie CSV‑basierte Metadatendatenbanken ebenso wie komplexere Systeme. Besonders betont wurde der Vorteil, Fragen, Variablen, Instrumente und Dokumentation systematisch miteinander zu verknüpfen – bis hin zur automatisierten Erstellung von Fragebögen, Codebooks und Methodenberichten.

Kommunikation mit Teilnehmenden: Mails, Papier und Pflege

Serienmails, Panelpflege und Teilnehmerkommunikation zogen sich wie ein roter Faden durch mehrere Sessions. Mail‑Versand ist allgegenwärtig, aber technisch und organisatorisch fragil: Spamfilter, Bounces und intransparente Providerregeln machen das Feld zur Blackbox. Gleichzeitig berichten viele Projekte, dass papierhafte Reminder nach wie vor sehr effektiv sind. Panelpflege wurde nicht als „nice to have“, sondern als eigenständige Aufgabe verstanden: Community‑Gedanke, Ergebnisrückspielung, Portale, Grußkarten, Social Media – alles mit Augenmaß und klarer Zielgruppenorientierung. Besonders sensibel ist die Frage, welche Ergebnisse man an Teilnehmende zurückspielt und wie, ohne zu demotivieren oder Reaktanz auszulösen.

Modi, Technik und Testung

Großen Raum nahmen Mode‑Wechsel ein, insbesondere Push‑to‑Web‑Ansätze. Berichtet wurde von klaren Mode‑Effekten, notwendigen Instrumentenanpassungen und der wachsenden Bedeutung von User Experience, gerade bei längeren Interviews. Parallel dazu wurde über Programmiertestungen gesprochen: Vollständige Tests sind aufwendig, deshalb wurden grafische und modellbasierte Ansätze diskutiert, die technische Prüfungen effizienter machen sollen. Auch hier zeigte sich erneut der Wert strukturierter Metadaten als gemeinsame Grundlage.

KI, offene Angaben und neue Erhebungsformen

Am dritten Tag rückten Innovationen stärker in den Vordergrund. Besonders anschaulich war die Vorstellung der KI‑gestützten Kodierung offener Angaben mit lokalen LLMs. Der Fokus lag weniger auf dem „Wow‑Effekt“ als auf sauberen Prozessen: Kodierschemata, Prompting‑Strategien, Evaluation gegen Goldstandards. Gleichzeitig wurde offen über Grenzen gesprochen – technische Aufwände, Datenschutz, institutionelle Rahmenbedingungen. Ähnlich ambivalent fiel der Blick auf neue Erhebungsformen wie Datenspenden oder CALVI aus: großes Potenzial, aber erhebliche Herausforderungen für Qualität, Vergleichbarkeit und Akzeptanz.

SLOW bleibt Arbeit im besten Sinne

Was SLOW 2026 in Nürnberg ausgezeichnet hat, war weniger ein einzelnes Ergebnis als die gemeinsame Arbeitsweise. Viele Themen blieben bewusst offen, manches widersprüchlich. Aber genau darin liegt die Stärke dieses Formats: Probleme werden nicht glattgezogen, sondern aus unterschiedlichen Perspektiven durchdacht. SLOW bleibt eine Werkstatt – und das Blog bleibt das Lagerfeuer, an dem die Diskussion weitergeht.

Dieser launische Bericht ist das Werk von Copilot, basierend auf einem Google Dokument bei dem viele mitgemacht haben und das viele zusätzliche Details enthält.

 

Der Workshop zwischen den Workshops

Beim SLOW in Nürnberg wurde gewünscht, dass wir Instant-Kommunikation zwischen den Workshops anbieten.

Wer eine Nachricht schreibt an @r7:matrix.org (Knut Wenzig) kann Zugang bekommen.

Aktuell sind wir zu dritt. Werden wir mehr?

Wer neu ist bei Matrix, findet eine ganz gute Einführungen hier: https://docs.chat.academiccloud.de/first-steps/index.html. Dort kann man sich auch einen Account holen.

Es gibt auch noch eine Mailingliste, aber die ist eher weniger aktiv – und schon gar nicht instant: Mailingliste zur Datenproduktion und Datenmanagement – Survey Data Blog

SLOW 2026 vom 20. bis 22. April 2026 in Nürnberg

Der nächste Survey-Lifecycle-Operators-Workshop (SLOW) findet vom 20. bis 22. April 2026 in der Zentrale der Bundesagentur für Arbeit in Nürnberg statt und wird ausgerichtet vom Institut für Arbeitsmarkt- und Berufsforschung (IAB).

Die Anmeldung ist ab jetzt geöffnet.

Beim Survey Lifecycle Operators Workshop (SLOW) kommen Menschen aus der operativen Ebene der Studienumsetzung zusammen und diskutieren in kleinen Gruppen selbst eingebrachte, praxisrelevante Themen: von der Fragebogenentwicklung und Pretestung über Datenaufbereitung, Sampling, Record Linkage, Datenschutz, Feldsteuerung und Incentivierung bis zu Nutzerbetreuung, Verträgen und Ausschreibungen.

Die Anmeldung zum Workshop ist bis zum 20. März 2026 möglich. Weitere Informationen zum Workshop und zur Anmeldung findet ihr hier:

https://slo-workshop.de/

Like SLOW but different: Invitation to the EconData Workshop @IAB in Nuremberg

Dear SLOW Community,

You know and love the SLO-Workshop, the open format that nurtures discussion and ideas to address survey challenges. However, survey data is not the only data out there. Maybe you find yourselves tackling other data challenges that do not quite fit into SLOW. In that case, you may be interested the workshop below.

Together with BERD@NFDI and Digital Research Academy (DRA), we organize a workshop that fosters collaboration and tackles any data question you have not yet had the chance to ask or idea that you have not had a chance to try out. In February 2026, we like to invite you to join us at the IAB to share experiences, questions, challenges and wisdom across institutions.

Register now to secure your free spot: https://eveeno.com/econ-data-workshop

Like SLOW but a little different: No long slides, no panels – just people who care about data, shaping the program together. You will help set the agenda with topics from open data and reproducibility to machine learning ethics, economic modeling, data governance, or visualization techniques – and join the sessions that inspire you most.

It is spontaneous, hands-on, and participant-driven. No prerequisites, no need to have ever heard of BERD@NFDI or DRA to take part. If you are interested, just sign up, bring your laptop, and join us in Nuremberg at IAB (Regensburger Straße 100).

February 26 (Half Day, 13.00 – 17.00): Jump right in with your most pressing questions, explore tools and approaches, and collaborate with peers.
February 27 (Full Day, 09.00 – 17.00): Continue your projects, refine your ideas, and wrap up with concrete outcomes – from best practice guides to reusable code snippets.

For questions, please contact Georg-Christoph Haas at Georg-Christoph.Haas@iab.de.

We look forward to meeting you!

Best regards,
Georg-Christoph Haas

Erster Workshop zu Deep Learning in der Survey-Datenproduktion (DeepSurv 2025)

Nach dem großem Interesse am Thema beim letzten SLOW-Workshop in Mannheim hatten wir für den 6. und 7. November einen Workshop zum Thema “Deep Learning in der Survey-Datenproduktion” (DeepSurv) organisiert. Mit insgesamt zehn Kolleg:innen vom IAB, DJI, der Universität Utrecht, dem SODA Lab der LMU und SHARE verbrachten wir die zwei halben Tage in einem wunderschön und brandneu renovierten Seminarraum am Institut für Statistik der LMU in München (vielen Dank dafür!).

Für einen Workshop für alle – von der Deep-Learning-Veteranin bis zum Novizen – war es perfekt, dass Christine Distler (IAB-OPAL) uns ab Donnerstagmittag mit einer kompakten Einführung in Python für Data Science (GitHub-Repo) abgeholt hat. Die Kursmaterialien sind außerdem eine großartige Referenz für alle, die ihre Python-Kenntnisse mal wieder auffrischen möchten!

Klassifikation unstrukturierter Survey-Daten

Den Rest des Tages beschäftigten wir uns mit dem Einsatz von Deep Learning zur Klassifikation unterschiedlicher Arten untrukturierter Surveydaten. Zunächst gab uns Franz Classe (DJI, ERiK) einen Überblick über Transformer-Architekturen und stellt seine Arbeit vor, in der mithilfe von Language Models (BERT) Textpassagen im EarlyMath-Projekt klassifiziert wurden. Dabei ging es darum Hinweise auf Mathematik-Kompetenzen in transkribierten Gesprächen mit Kindern ab zwei Jahren zu identifizieren.

Anschließend stellte uns Antonia Härle die gemeinsame Arbeit mit Marina Aoki und Arne Bethmann (alle SHARE) zur automatischen Bewertung von Zeichnungen aus Demenz-Screening-Tests vor. Hier lag der Schwerpunkt auf der Verbesserung der vorliegenden Modelle mithilfe von Curriculum Learning und der Verwendung von Vision-Transformern (DeiT) als Alternative zu Convolutional Neural Networks (ConvNeXt V2).

Zum Abschluss des Donnerstags berichtete Malte Schierholz (SODA Lab, LMU) von einem Projekt in dem fehlerhaft durchgeführte Telefoninterviews durch die automatisierte Auswertung von Audiomittschnitten identifiziert werden sollten. Ein zentraler Bestandteil war die Verbesserung bestehender Speech-to-Text-Modelle (insbesondere Whisper, Conformer, Wav2vec 2.0 oder WavLM) für diesen Zweck. Ergänzt um Sentiment-Analysen sollte die automatische Auswertung schließlich als Basis zur Verbesserung der Datenqualität genutzt werden. Leider wurde der Antrag letztlich abgelehnt, da man sich auf die Qualitätsprüfung hätte beschränken sollen – eine Kritik, der wir uns im Workshop nicht anschließen mochten.

Generative Modelle zur Survey-Datenproduktion

Der Freitagmorgen beschäftigte sich mit dem Einsatz generativer Deep-Learning-Modelle in der Produktion von Survey-Daten. Den Anfang machte Charlotte Müller (Universität Utrecht und SHARE-NL) mit einem Beitrag zur automatischen Generierung von Survey-Antworten mithilfe von Large Language Models (GPT-4). Dazu wurden Prompts für Agenten u.a. mit Hintergrundinformationen einer Stichprobe von Fällen aus dem ALLBUS erstellt. Diese wurden verwendet um Antworten auf Fragebogen-Items zu generieren und diese schließlich mit den echten Antworten zu vergleichen.

Anschließend zeigte Arne Bethmann einige erste Versuche zur Generierung von Würfelzeichnungen, z.B. als synthetische Trainingsdaten für Klassifikationsmodelle. Dazu wurde ein Conditional Variational Autoencoder (CVAE) mit Bildern und Bewertungen aus dem Demenz-Scoring-Projekt vom Vortag trainiert. Für zufriedenstellende Ergebnisse müssten allerdings deutlich mehr Trainingsdaten verwendet werden, die aktuell in Vorbereitung sind.

Zum Abschluss gab Anna-Carolina Haensch (SODA Lab, LMU) uns noch einen Einblick in ihre Arbeit zur Generierung von Survey-Fragen mit Large Language Models. Dafür verwendete sie gemeinsam mit ihren Kolleg:innen verschiedene proprietäre und offene Modelle von OpenAI und Meta (GPT-4o, GPT-4o mini, gpt-oss-20b, Llama 3.1 70B, Llama 3.1 8B), um Fragebogen-Items zu unterschiedlichen Themen zu erstellen. Die Ergebnisse wurden dann mithilfe des Survey Quality Predictors (SQP 3.0) bewertet und verglichen.

In den Diskussionen der zwei Tage tauchten einige Themen immer wieder auf. Beim Umgang mit echten Befragtendaten wurde beispielsweise häufig die Frage nach dem Datenschutz bei der Verwendung von Cloud-Lösungen gestellt. Andererseits ist die Bereitstellung von lokaler Compute-Infrastruktur an einigen Instituten nicht trivial. Der Einsatz hochskalierter, vortrainierter generativer Modelle, wie ChatGPT wurde kritisch, aber konstruktiv reflektiert. Insgesamt konnten wir einen guten praktischen Einblick gewinnen, woran wir alle gerade arbeiten und wo die konkreten Potenziale und Anwendungsmöglichkeiten von Deep Learning in der Survey-Datenproduktion bereits jetzt liegen – jenseits des immer noch starken AI-Hypes.

Wir waren uns auf jeden Fall einig, dass sich die Veranstaltung gelohnt hat und eine Wiederholung geplant werden sollte. In diesem Sinne nochmals vielen Dank an alle Beteiligten! Und: Stay tuned for DeepSurv 2026!

SHARE Deutschland sucht Survey Spezialist:in

Das SHARE Deutschland Team sucht Verstärkung! Wir planen und organisieren den deutschen Teil von SHARE, einer seit über 20 Jahren laufenden Befragung zur gesundheitlichen und sozioökonomischen Situation von Menschen über 50 in Europa. Als “Country Team Operator” geht es neben organisatorischen Aufgaben auch um eigene Forschung mit den SHARE-Daten. Details gibt es in der Stellenausschreibung. Gerne Bewerben oder weiterleiten!

https://share-eric.eu/news-events/job-offers/job-offer-sbi-survey-specialist-f/m/d-share-de

EDDI2025: Call for Proposals

Die EDDI2025 wird vom Forschungsdokumentationszentrum am Zentrum für Sozialwissenschaften HUN-REN in Budapest von Montag, dem 1. Dezember bis Freitag, dem 5. Dezember 2025 als Präsenzveranstaltung ausgerichtet:

  • Tutorials und Workshops: Montag, 1. Dezember 2025
  • Konferenz: Dienstag, 2. Dezember – Mittwoch, 3. Dezember 2025
  • Begleitveranstaltungen: Donnerstag, 4. Dezember – Freitag, 5. Dezember 2025

Die Data Documentation Initiative (DDI) ist ein internationaler Standard zur Beschreibung von Daten, die durch Umfragen und andere beobachtende Methoden in den Sozial-, Verhaltens-, Wirtschafts- und Gesundheitswissenschaften erhoben werden.

Die Veranstaltung bringt DDI-Nutzer*innen und Fachleute aus ganz Europa und der Welt zusammen. Alle, die daran interessiert sind, DDI zu entwickeln, anzuwenden, zu hinterfragen oder zu nutzen, sind herzlich eingeladen, teilzunehmen und Beiträge zu präsentieren.

Gesucht werden Beiträge zu allen Aspekten von DDI, darunter:

  • Fallstudien
  • Ausgereifte Implementierungen
  • Erste Implementierungen
  • Zusammenspiel von DDI mit anderen Standards oder Technologien
  • Projekte in frühen Phasen, in denen DDI in Betracht gezogen wird
  • Kritiken an DDI
  • Aktivitäten zum Aufbau der Community

Der Call for Proposals ist veröffentlicht und endet am 1. September 2025.