Dear SLOW Community,
You know and love the SLO-Workshop, the open format that nurtures discussion and ideas to address survey challenges. However, survey data is not the only data out there. Maybe you find yourselves tackling other data challenges that do not quite fit into SLOW. In that case, you may be interested the workshop below.
Together with BERD@NFDI and Digital Research Academy (DRA), we organize a workshop that fosters collaboration and tackles any data question you have not yet had the chance to ask or idea that you have not had a chance to try out. In February 2026, we like to invite you to join us at the IAB to share experiences, questions, challenges and wisdom across institutions.
Register now to secure your free spot: https://eveeno.com/econ-data-workshop
Like SLOW but a little different: No long slides, no panels – just people who care about data, shaping the program together. You will help set the agenda with topics from open data and reproducibility to machine learning ethics, economic modeling, data governance, or visualization techniques – and join the sessions that inspire you most.
It is spontaneous, hands-on, and participant-driven. No prerequisites, no need to have ever heard of BERD@NFDI or DRA to take part. If you are interested, just sign up, bring your laptop, and join us in Nuremberg at IAB (Regensburger Straße 100).
February 26 (Half Day, 13.00 – 17.00): Jump right in with your most pressing questions, explore tools and approaches, and collaborate with peers.
February 27 (Full Day, 09.00 – 17.00): Continue your projects, refine your ideas, and wrap up with concrete outcomes – from best practice guides to reusable code snippets.
For questions, please contact Georg-Christoph Haas at Georg-Christoph.Haas@iab.de.
We look forward to meeting you!
Best regards,
Georg-Christoph Haas
Kategorie: Uncategorized
Erster Workshop zu Deep Learning in der Survey-Datenproduktion (DeepSurv 2025)
Nach dem großem Interesse am Thema beim letzten SLOW-Workshop in Mannheim hatten wir für den 6. und 7. November einen Workshop zum Thema “Deep Learning in der Survey-Datenproduktion” (DeepSurv) organisiert. Mit insgesamt zehn Kolleg:innen vom IAB, DJI, der Universität Utrecht, dem SODA Lab der LMU und SHARE verbrachten wir die zwei halben Tage in einem wunderschön und brandneu renovierten Seminarraum am Institut für Statistik der LMU in München (vielen Dank dafür!).
Für einen Workshop für alle – von der Deep-Learning-Veteranin bis zum Novizen – war es perfekt, dass Christine Distler (IAB-OPAL) uns ab Donnerstagmittag mit einer kompakten Einführung in Python für Data Science (GitHub-Repo) abgeholt hat. Die Kursmaterialien sind außerdem eine großartige Referenz für alle, die ihre Python-Kenntnisse mal wieder auffrischen möchten!
Klassifikation unstrukturierter Survey-Daten
Den Rest des Tages beschäftigten wir uns mit dem Einsatz von Deep Learning zur Klassifikation unterschiedlicher Arten untrukturierter Surveydaten. Zunächst gab uns Franz Classe (DJI, ERiK) einen Überblick über Transformer-Architekturen und stellt seine Arbeit vor, in der mithilfe von Language Models (BERT) Textpassagen im EarlyMath-Projekt klassifiziert wurden. Dabei ging es darum Hinweise auf Mathematik-Kompetenzen in transkribierten Gesprächen mit Kindern ab zwei Jahren zu identifizieren.
Anschließend stellte uns Antonia Härle die gemeinsame Arbeit mit Marina Aoki und Arne Bethmann (alle SHARE) zur automatischen Bewertung von Zeichnungen aus Demenz-Screening-Tests vor. Hier lag der Schwerpunkt auf der Verbesserung der vorliegenden Modelle mithilfe von Curriculum Learning und der Verwendung von Vision-Transformern (DeiT) als Alternative zu Convolutional Neural Networks (ConvNeXt V2).
Zum Abschluss des Donnerstags berichtete Malte Schierholz (SODA Lab, LMU) von einem Projekt in dem fehlerhaft durchgeführte Telefoninterviews durch die automatisierte Auswertung von Audiomittschnitten identifiziert werden sollten. Ein zentraler Bestandteil war die Verbesserung bestehender Speech-to-Text-Modelle (insbesondere Whisper, Conformer, Wav2vec 2.0 oder WavLM) für diesen Zweck. Ergänzt um Sentiment-Analysen sollte die automatische Auswertung schließlich als Basis zur Verbesserung der Datenqualität genutzt werden. Leider wurde der Antrag letztlich abgelehnt, da man sich auf die Qualitätsprüfung hätte beschränken sollen – eine Kritik, der wir uns im Workshop nicht anschließen mochten.
Generative Modelle zur Survey-Datenproduktion
Der Freitagmorgen beschäftigte sich mit dem Einsatz generativer Deep-Learning-Modelle in der Produktion von Survey-Daten. Den Anfang machte Charlotte Müller (Universität Utrecht und SHARE-NL) mit einem Beitrag zur automatischen Generierung von Survey-Antworten mithilfe von Large Language Models (GPT-4). Dazu wurden Prompts für Agenten u.a. mit Hintergrundinformationen einer Stichprobe von Fällen aus dem ALLBUS erstellt. Diese wurden verwendet um Antworten auf Fragebogen-Items zu generieren und diese schließlich mit den echten Antworten zu vergleichen.
Anschließend zeigte Arne Bethmann einige erste Versuche zur Generierung von Würfelzeichnungen, z.B. als synthetische Trainingsdaten für Klassifikationsmodelle. Dazu wurde ein Conditional Variational Autoencoder (CVAE) mit Bildern und Bewertungen aus dem Demenz-Scoring-Projekt vom Vortag trainiert. Für zufriedenstellende Ergebnisse müssten allerdings deutlich mehr Trainingsdaten verwendet werden, die aktuell in Vorbereitung sind.
Zum Abschluss gab Anna-Carolina Haensch (SODA Lab, LMU) uns noch einen Einblick in ihre Arbeit zur Generierung von Survey-Fragen mit Large Language Models. Dafür verwendete sie gemeinsam mit ihren Kolleg:innen verschiedene proprietäre und offene Modelle von OpenAI und Meta (GPT-4o, GPT-4o mini, gpt-oss-20b, Llama 3.1 70B, Llama 3.1 8B), um Fragebogen-Items zu unterschiedlichen Themen zu erstellen. Die Ergebnisse wurden dann mithilfe des Survey Quality Predictors (SQP 3.0) bewertet und verglichen.
In den Diskussionen der zwei Tage tauchten einige Themen immer wieder auf. Beim Umgang mit echten Befragtendaten wurde beispielsweise häufig die Frage nach dem Datenschutz bei der Verwendung von Cloud-Lösungen gestellt. Andererseits ist die Bereitstellung von lokaler Compute-Infrastruktur an einigen Instituten nicht trivial. Der Einsatz hochskalierter, vortrainierter generativer Modelle, wie ChatGPT wurde kritisch, aber konstruktiv reflektiert. Insgesamt konnten wir einen guten praktischen Einblick gewinnen, woran wir alle gerade arbeiten und wo die konkreten Potenziale und Anwendungsmöglichkeiten von Deep Learning in der Survey-Datenproduktion bereits jetzt liegen – jenseits des immer noch starken AI-Hypes.
Wir waren uns auf jeden Fall einig, dass sich die Veranstaltung gelohnt hat und eine Wiederholung geplant werden sollte. In diesem Sinne nochmals vielen Dank an alle Beteiligten! Und: Stay tuned for DeepSurv 2026!
SHARE Deutschland sucht Survey Spezialist:in
Das SHARE Deutschland Team sucht Verstärkung! Wir planen und organisieren den deutschen Teil von SHARE, einer seit über 20 Jahren laufenden Befragung zur gesundheitlichen und sozioökonomischen Situation von Menschen über 50 in Europa. Als “Country Team Operator” geht es neben organisatorischen Aufgaben auch um eigene Forschung mit den SHARE-Daten. Details gibt es in der Stellenausschreibung. Gerne Bewerben oder weiterleiten!
https://share-eric.eu/news-events/job-offers/job-offer-sbi-survey-specialist-f/m/d-share-de
SLO-Workshop 2026 findet vom 20. bis 22. April statt
Der Survey Lifecycle Operators Workshop (SLOW) findet im Jahr 2026 vermutlich vom 20. bis 22. April 2026 statt.
EDDI2025: Call for Proposals
Die EDDI2025 wird vom Forschungsdokumentationszentrum am Zentrum für Sozialwissenschaften HUN-REN in Budapest von Montag, dem 1. Dezember bis Freitag, dem 5. Dezember 2025 als Präsenzveranstaltung ausgerichtet:
- Tutorials und Workshops: Montag, 1. Dezember 2025
- Konferenz: Dienstag, 2. Dezember – Mittwoch, 3. Dezember 2025
- Begleitveranstaltungen: Donnerstag, 4. Dezember – Freitag, 5. Dezember 2025
Die Data Documentation Initiative (DDI) ist ein internationaler Standard zur Beschreibung von Daten, die durch Umfragen und andere beobachtende Methoden in den Sozial-, Verhaltens-, Wirtschafts- und Gesundheitswissenschaften erhoben werden.
Die Veranstaltung bringt DDI-Nutzer*innen und Fachleute aus ganz Europa und der Welt zusammen. Alle, die daran interessiert sind, DDI zu entwickeln, anzuwenden, zu hinterfragen oder zu nutzen, sind herzlich eingeladen, teilzunehmen und Beiträge zu präsentieren.
Gesucht werden Beiträge zu allen Aspekten von DDI, darunter:
- Fallstudien
- Ausgereifte Implementierungen
- Erste Implementierungen
- Zusammenspiel von DDI mit anderen Standards oder Technologien
- Projekte in frühen Phasen, in denen DDI in Betracht gezogen wird
- Kritiken an DDI
- Aktivitäten zum Aufbau der Community
Der Call for Proposals ist veröffentlicht und endet am 1. September 2025.
Atlas/Datenbank longitudinaler Erhebungen/Datensätze
Unter https://atlaslongitudinaldatasets.ac.uk ist 2023 ein Projekt gestartet, welches zum Ziel hat, longitudinale Studien bzw. deren Datensätze auffindbar zu machen. Derzeit verfügt das Projekt über Kenntnisse zu ca. 3.600 Datensätzen weltweit, davon sind ca. 1.600 in dem Atlas bereits publiziert.
Der Atlas übernimmt die Erfassung der Daten selbst, um Einheitlichkeit zu gewährleisten. Ob eigene Studie schon erfasst ist, kann unter atlas.longitudinaldatasets@kcl.ac.uk erfragt werden.
Der Startschwerpunkt der Datenbank war Mental Health.

TREE, Universität Bern, sucht eine Leiterin / einen Leiter des Data Managements
TREE (Transitions from Education to Employment) sucht ein:e Nachfolger:in der jetzigen Stelleninhaberin als Leiter:in des Data Managements. Hier sind die Links zur Stellenausschreibung und zur TREE-Website:
SHARE sucht Mitarbeiter*innen für die Abteilungen Data Base Management und Questionnaire Development
Liebe Survey Data Community,
wir brauchen dringend Verstärkung und freuen uns auf eure Bewerbungen. Die Ausschreibungen findet ihr hier:
https://share-eric.eu/news-events/job-offers
Bei Fragen zur Data Base Management Stelle könnt ihr euch gerne and Stephanie Stuck (sstuck@share-berlin.eu) wenden, für die Stelle im Questionnaire Development Team an Theresa Fabel (tfabel@share-berlin.eu)
DataFest 2025 – Anmeldung läuft
Wie jedes Jahr findet auch 2025 vom 28. bis 30. März wieder ein DataFest statt! Ein Hackathon für Bachelor- und Masterstudierende, bei dem sie sich mit Gleichgesinnten an einem vorher unbekannten Datensatz austoben können. Ziel ist es innerhalb von 48h die interessantesten Analysen, die schönsten Visualisierungen und die trickreichsten Modellierungen zu entwickeln.
Organisiert wird das Ganze gemeinsam vom Social Data Science and AI Lab (SODA) der Ludwig-Maximilians-Universität München und der Fakultät für Sozialwissenschaften der Universität Mannheim. Die Anmeldung läuft noch bis zum 1. März 2025. Wer also noch Leute kennt, die vielleicht teilnehmen mögen: weitersagen! Meine studentische Hilfskraft war jedenfalls begeistert 🙂
Call for Participation: Stichwort Programmiertestung – Wie ist die Surveypraxis?

Beim SLO-Workshop in Mannheim hat sich eine Gruppe gebildet, die sich zunächst einen Überblick über die Praxis der Programmiertestung in Surveys verschaffen will. Daraus kann dann ein gemeinsames Verständnis darüber entwickeln, was unter Programmiertestung verstanden werden soll und welche Empfehlungen gegeben werden können.
In einem ersten Schritt soll jede interessierte Studie bzw. jedes interessierte Institut beschreiben, wie die Programmiertestung abläuft. Hierzu soll auch Material zur Verfügung gestellt werden, das in dem Zusammenhang genutzt bzw. erstellt wird (z.B. Checklisten für Hiwis, Filter-Diagramme/Bäume, Fehlerlogs). Auch die Testung von Preloads, kann thematisiert werden. Idealerweise soll das Vorgehen auf etwa einer Textseite beschrieben werden, was mit weiterem Material illustriert werden kann. Auch Literaturhinweise sind willkommen. Die Beschreibungen sollen bis 16. März bei Knut Wenzig eingehen.
Dieses Material soll dann gemeinsam gesichtet und diskutiert werden. Im weiteren Verlauf könnte über die Rolle von Metadaten in diesem Prozess diskutiert werden und am Ende könnte eine Veröffentlichung der Arbeitsergebnisse etwa in der Zeitschrift Bausteine Forschungsdatenmanagement stehen.
Interesse an der Bearbeitung dieses Themas wurde von Kolleg*innen aus LIfBi, dem DJI, TREE, IAB, SHARE, GESIS und DIW Berlin gezeigt.