Erster Workshop zu Deep Learning in der Survey-Datenproduktion (DeepSurv 2025)

Nach dem großem Interesse am Thema beim letzten SLOW-Workshop in Mannheim hatten wir für den 6. und 7. November einen Workshop zum Thema “Deep Learning in der Survey-Datenproduktion” (DeepSurv) organisiert. Mit insgesamt zehn Kolleg:innen vom IAB, DJI, der Universität Utrecht, dem SODA Lab der LMU und SHARE verbrachten wir die zwei halben Tage in einem wunderschön und brandneu renovierten Seminarraum am Institut für Statistik der LMU in München (vielen Dank dafür!).

Für einen Workshop für alle – von der Deep-Learning-Veteranin bis zum Novizen – war es perfekt, dass Christine Distler (IAB-OPAL) uns ab Donnerstagmittag mit einer kompakten Einführung in Python für Data Science (GitHub-Repo) abgeholt hat. Die Kursmaterialien sind außerdem eine großartige Referenz für alle, die ihre Python-Kenntnisse mal wieder auffrischen möchten!

Klassifikation unstrukturierter Survey-Daten

Den Rest des Tages beschäftigten wir uns mit dem Einsatz von Deep Learning zur Klassifikation unterschiedlicher Arten untrukturierter Surveydaten. Zunächst gab uns Franz Classe (DJI, ERiK) einen Überblick über Transformer-Architekturen und stellt seine Arbeit vor, in der mithilfe von Language Models (BERT) Textpassagen im EarlyMath-Projekt klassifiziert wurden. Dabei ging es darum Hinweise auf Mathematik-Kompetenzen in transkribierten Gesprächen mit Kindern ab zwei Jahren zu identifizieren.

Anschließend stellte uns Antonia Härle die gemeinsame Arbeit mit Marina Aoki und Arne Bethmann (alle SHARE) zur automatischen Bewertung von Zeichnungen aus Demenz-Screening-Tests vor. Hier lag der Schwerpunkt auf der Verbesserung der vorliegenden Modelle mithilfe von Curriculum Learning und der Verwendung von Vision-Transformern (DeiT) als Alternative zu Convolutional Neural Networks (ConvNeXt V2).

Zum Abschluss des Donnerstags berichtete Malte Schierholz (SODA Lab, LMU) von einem Projekt in dem fehlerhaft durchgeführte Telefoninterviews durch die automatisierte Auswertung von Audiomittschnitten identifiziert werden sollten. Ein zentraler Bestandteil war die Verbesserung bestehender Speech-to-Text-Modelle (insbesondere Whisper, Conformer, Wav2vec 2.0 oder WavLM) für diesen Zweck. Ergänzt um Sentiment-Analysen sollte die automatische Auswertung schließlich als Basis zur Verbesserung der Datenqualität genutzt werden. Leider wurde der Antrag letztlich abgelehnt, da man sich auf die Qualitätsprüfung hätte beschränken sollen – eine Kritik, der wir uns im Workshop nicht anschließen mochten.

Generative Modelle zur Survey-Datenproduktion

Der Freitagmorgen beschäftigte sich mit dem Einsatz generativer Deep-Learning-Modelle in der Produktion von Survey-Daten. Den Anfang machte Charlotte Müller (Universität Utrecht und SHARE-NL) mit einem Beitrag zur automatischen Generierung von Survey-Antworten mithilfe von Large Language Models (GPT-4). Dazu wurden Prompts für Agenten u.a. mit Hintergrundinformationen einer Stichprobe von Fällen aus dem ALLBUS erstellt. Diese wurden verwendet um Antworten auf Fragebogen-Items zu generieren und diese schließlich mit den echten Antworten zu vergleichen.

Anschließend zeigte Arne Bethmann einige erste Versuche zur Generierung von Würfelzeichnungen, z.B. als synthetische Trainingsdaten für Klassifikationsmodelle. Dazu wurde ein Conditional Variational Autoencoder (CVAE) mit Bildern und Bewertungen aus dem Demenz-Scoring-Projekt vom Vortag trainiert. Für zufriedenstellende Ergebnisse müssten allerdings deutlich mehr Trainingsdaten verwendet werden, die aktuell in Vorbereitung sind.

Zum Abschluss gab Anna-Carolina Haensch (SODA Lab, LMU) uns noch einen Einblick in ihre Arbeit zur Generierung von Survey-Fragen mit Large Language Models. Dafür verwendete sie gemeinsam mit ihren Kolleg:innen verschiedene proprietäre und offene Modelle von OpenAI und Meta (GPT-4o, GPT-4o mini, gpt-oss-20b, Llama 3.1 70B, Llama 3.1 8B), um Fragebogen-Items zu unterschiedlichen Themen zu erstellen. Die Ergebnisse wurden dann mithilfe des Survey Quality Predictors (SQP 3.0) bewertet und verglichen.

In den Diskussionen der zwei Tage tauchten einige Themen immer wieder auf. Beim Umgang mit echten Befragtendaten wurde beispielsweise häufig die Frage nach dem Datenschutz bei der Verwendung von Cloud-Lösungen gestellt. Andererseits ist die Bereitstellung von lokaler Compute-Infrastruktur an einigen Instituten nicht trivial. Der Einsatz hochskalierter, vortrainierter generativer Modelle, wie ChatGPT wurde kritisch, aber konstruktiv reflektiert. Insgesamt konnten wir einen guten praktischen Einblick gewinnen, woran wir alle gerade arbeiten und wo die konkreten Potenziale und Anwendungsmöglichkeiten von Deep Learning in der Survey-Datenproduktion bereits jetzt liegen – jenseits des immer noch starken AI-Hypes.

Wir waren uns auf jeden Fall einig, dass sich die Veranstaltung gelohnt hat und eine Wiederholung geplant werden sollte. In diesem Sinne nochmals vielen Dank an alle Beteiligten! Und: Stay tuned for DeepSurv 2026!

SHARE Deutschland sucht Survey Spezialist:in

Das SHARE Deutschland Team sucht Verstärkung! Wir planen und organisieren den deutschen Teil von SHARE, einer seit über 20 Jahren laufenden Befragung zur gesundheitlichen und sozioökonomischen Situation von Menschen über 50 in Europa. Als “Country Team Operator” geht es neben organisatorischen Aufgaben auch um eigene Forschung mit den SHARE-Daten. Details gibt es in der Stellenausschreibung. Gerne Bewerben oder weiterleiten!

https://share-eric.eu/news-events/job-offers/job-offer-sbi-survey-specialist-f/m/d-share-de

DataFest 2025 – Anmeldung läuft

Wie jedes Jahr findet auch 2025 vom 28. bis 30. März wieder ein DataFest statt! Ein Hackathon für Bachelor- und Masterstudierende, bei dem sie sich mit Gleichgesinnten an einem vorher unbekannten Datensatz austoben können. Ziel ist es innerhalb von 48h die interessantesten Analysen, die schönsten Visualisierungen und die trickreichsten Modellierungen zu entwickeln.

Organisiert wird das Ganze gemeinsam vom Social Data Science and AI Lab (SODA) der Ludwig-Maximilians-Universität München und der Fakultät für Sozialwissenschaften der Universität Mannheim. Die Anmeldung läuft noch bis zum 1. März 2025. Wer also noch Leute kennt, die vielleicht teilnehmen mögen: weitersagen! Meine studentische Hilfskraft war jedenfalls begeistert 🙂

Offene Stelle für Survey Researcher bei SHARE

Wir suchen bei SHARE ein/e/n Survey Reseacher um uns beim NIMLAS/NIH-geförderten Projekt Investigating Consent Rates for Linking Survey and Administrative Data in a Multilingual, Multinational, and Multicultural Context” (SHARE-CoRaL) zu unterstützen. Die volle Stellenausschreibung findet Ihr hier.

SHARE Nutzerworkshop & Survey Lifecycle Operators Workshop (SLOW) vom 27. bis 29. September

Die SLOW-Anmeldung läuft jetzt unter: https://slo-workshop.de/

Call zum SHARE Nutzerworkshop gibt es hier: https://share-eric.eu/news-events/news-details/share-germany-user-workshop

Nach zahlreichen Nachfragen ist nun endlich die offizielle Ankündigung da: Auch in diesem Jahr wird der Survey Lifecycle Operators Workshop (SLOW) wieder in Berlin stattfinden, und zwar am 28. und 29.9. Dieses Mal wird er vom SHARE Berlin Institute (SBI), dem neuen Domizil des Survey of Health, Aging and Retirement in Europe, gehostet und findet direkt im Anschluss an den SHARE DE Nutzerworkshop statt.

Das Prinzip von SLOW ist das altbewährte: ein Szene-Treffen von Menschen im Maschinenraum der deutschsprachigen Surveyforschung, egal ob Fragebogenentwicklung, Sampling, Feldsteuerung, Survey-Methoden, Datenaufbereitung, Nutzerbetreuung, Projektbeantragung oder -ausschreibung, etc. pp.: Alle sind willkommen! Das Format ist Open Space, also eine Konferenz aus strukturierten “Kaffeepausen”, die sich über die letzten mehr als 10 Jahre als sehr fruchtbar erwiesen hat.

Eine Besonderheit in diesem Jahr ist die zeitliche und räumliche Verbindung mit dem SHARE Nutzerworkshop vom 27. bis 28.9. am SBI. Wir möchten die Gelegenheit nutzen, um den Austausch zwischen Datenproduzierenden und -nutzenden zu fördern, à la “Dialog in Data: Meet the User / Meet the Maker”.

Die letzten Details müssen noch geklärt werden. Wir melden uns aber in Kürze mit Infos zu Programm und Anmeldung.

Bis bald in Berlin!
Euer SHARE-Team

ESRA Session zu Arbeitsorganisation und -prozessen in der Survey-Datenproduktion

Zusätzlich zu den Data-Management-Sessions im engeren Sinne möchte ich noch auf eine Session hinweisen, die sich stärker mit Arbeitsorganisation und -prozessen bei Survey-Datenproduzent:innen beschäftigt, insbesondere was wir in diesem Zusammenhang von Software-Entwicklern lernen können (oder schon gelernt haben), die sich in vielen Aspekten mit ähnlichen Problemen herumschlagen:

Agility and the Survey Life-Cycle – If and what survey practitioners can learn from software development

https://www.europeansurveyresearch.org/conf2023/sessions.php?sess=85

Yuri und ich freuen uns auf Eure zahlreichen Abstracts! 🙂

Anmeldung läuft: 8./9. September 2022 SLOW-Workshop 2022 in Berlin

Damit der SLOW-Workshop nicht das zweite Jahr in Folge ausfällt wollen wir uns am 8. und 9. September wieder in Berlin treffen um uns über die Widrigkeiten, kreativen Lösungen und schönen Seiten der Produktion sozialwissenschaftlicher Forschungsdaten zu unterhalten. Wie beim letzen Mal rekrutiert sich das Orga-Team wieder aus mehreren Instituten, diesmal den Panel-Veteranen vom SOEP und den avisierten Neuberlinern vom SHARE Berlin Institute (the institute formerly known as SHARE/MEA).

Die Anmeldung läuft jetzt unter http://slow.surveydata.org/

Jobs in Social Data Science an der LMU

Der Chair of Statistics and Data Science in Social Sciences and the Humanities (Frauke Kreuter) hat einige Doktoranden- und PostDoc-Stellen ausgeschrieben. Hier die Ausschreibungsmail:

Dear all,

Several PhD and Postdoc positions are available at the chair of 
Statistics and Data Science in Social Sciences and the Humanities at the Institute for Statistics, LMU München.

Are you interested in automated and computer-assisted decision making? 
In applying Machine Learning to analyze unstructured or non-rectangular 
data sets, from surveys and from industry? In collecting new (survey) 
data for digital-era-related research questions that haven?t been asked 
before? To design software, facilitating research on human beings? How 
can the social sciences use Big Data in ethical ways, while preserving 
privacy? Be a leader and help form the AI revolution.

Find more information about the available positions at

PhD positions:
https://www.statistik.uni-muenchen.de/formulare/interne_stellen/211126_stellenangebot.pdf

Postdoctoral researchers:
https://www.statistik.uni-muenchen.de/formulare/interne_stellen/211126_stellenangebot2.pdf

For two of the positions we have more detailed descriptions available

Research on social inequality in modern digital societies:
https://www.statistik.uni-muenchen.de/formulare/interne_stellen/211126_stellenangebot3.pdf

Research on automated AI-assistants to improve the measurement of 
occupation:
https://www.statistik.uni-muenchen.de/formulare/interne_stellen/211129_stellenangebot.pdf

Please feel free to contact us to find out how your areas of interest 
might match with these or other projects we have.

Application deadline: Dec 20, 2021.

SHARE sucht eine:n neue:n International Coordinator

Dear survey community,

In order for SHARE to keep providing a high-quality infrastructure for multi-disciplinary research into health, ageing and retirement across Europe, we started a process leading to a new and even better SHARE 2.0 over the coming years.

SHARE’s most important assets are its people, which is why we are looking for a new “International Coordinator” keeping up SHARE’s spirit and commitment to the highest standards in scientific quality regarding survey methodology as well as substantive research.

Please see the attached job posting and feel free to forward it to third parties that might be interested.

>> Link Job Offer SHARE Website

Best regards,

The SHARE-Team