Nach dem großem Interesse am Thema beim letzten SLOW-Workshop in Mannheim hatten wir für den 6. und 7. November einen Workshop zum Thema “Deep Learning in der Survey-Datenproduktion” (DeepSurv) organisiert. Mit insgesamt zehn Kolleg:innen vom IAB, DJI, der Universität Utrecht, dem SODA Lab der LMU und SHARE verbrachten wir die zwei halben Tage in einem wunderschön und brandneu renovierten Seminarraum am Institut für Statistik der LMU in München (vielen Dank dafür!).
Für einen Workshop für alle – von der Deep-Learning-Veteranin bis zum Novizen – war es perfekt, dass Christine Distler (IAB-OPAL) uns ab Donnerstagmittag mit einer kompakten Einführung in Python für Data Science (GitHub-Repo) abgeholt hat. Die Kursmaterialien sind außerdem eine großartige Referenz für alle, die ihre Python-Kenntnisse mal wieder auffrischen möchten!
Klassifikation unstrukturierter Survey-Daten
Den Rest des Tages beschäftigten wir uns mit dem Einsatz von Deep Learning zur Klassifikation unterschiedlicher Arten untrukturierter Surveydaten. Zunächst gab uns Franz Classe (DJI, ERiK) einen Überblick über Transformer-Architekturen und stellt seine Arbeit vor, in der mithilfe von Language Models (BERT) Textpassagen im EarlyMath-Projekt klassifiziert wurden. Dabei ging es darum Hinweise auf Mathematik-Kompetenzen in transkribierten Gesprächen mit Kindern ab zwei Jahren zu identifizieren.
Anschließend stellte uns Antonia Härle die gemeinsame Arbeit mit Marina Aoki und Arne Bethmann (alle SHARE) zur automatischen Bewertung von Zeichnungen aus Demenz-Screening-Tests vor. Hier lag der Schwerpunkt auf der Verbesserung der vorliegenden Modelle mithilfe von Curriculum Learning und der Verwendung von Vision-Transformern (DeiT) als Alternative zu Convolutional Neural Networks (ConvNeXt V2).
Zum Abschluss des Donnerstags berichtete Malte Schierholz (SODA Lab, LMU) von einem Projekt in dem fehlerhaft durchgeführte Telefoninterviews durch die automatisierte Auswertung von Audiomittschnitten identifiziert werden sollten. Ein zentraler Bestandteil war die Verbesserung bestehender Speech-to-Text-Modelle (insbesondere Whisper, Conformer, Wav2vec 2.0 oder WavLM) für diesen Zweck. Ergänzt um Sentiment-Analysen sollte die automatische Auswertung schließlich als Basis zur Verbesserung der Datenqualität genutzt werden. Leider wurde der Antrag letztlich abgelehnt, da man sich auf die Qualitätsprüfung hätte beschränken sollen – eine Kritik, der wir uns im Workshop nicht anschließen mochten.
Generative Modelle zur Survey-Datenproduktion
Der Freitagmorgen beschäftigte sich mit dem Einsatz generativer Deep-Learning-Modelle in der Produktion von Survey-Daten. Den Anfang machte Charlotte Müller (Universität Utrecht und SHARE-NL) mit einem Beitrag zur automatischen Generierung von Survey-Antworten mithilfe von Large Language Models (GPT-4). Dazu wurden Prompts für Agenten u.a. mit Hintergrundinformationen einer Stichprobe von Fällen aus dem ALLBUS erstellt. Diese wurden verwendet um Antworten auf Fragebogen-Items zu generieren und diese schließlich mit den echten Antworten zu vergleichen.
Anschließend zeigte Arne Bethmann einige erste Versuche zur Generierung von Würfelzeichnungen, z.B. als synthetische Trainingsdaten für Klassifikationsmodelle. Dazu wurde ein Conditional Variational Autoencoder (CVAE) mit Bildern und Bewertungen aus dem Demenz-Scoring-Projekt vom Vortag trainiert. Für zufriedenstellende Ergebnisse müssten allerdings deutlich mehr Trainingsdaten verwendet werden, die aktuell in Vorbereitung sind.
Zum Abschluss gab Anna-Carolina Haensch (SODA Lab, LMU) uns noch einen Einblick in ihre Arbeit zur Generierung von Survey-Fragen mit Large Language Models. Dafür verwendete sie gemeinsam mit ihren Kolleg:innen verschiedene proprietäre und offene Modelle von OpenAI und Meta (GPT-4o, GPT-4o mini, gpt-oss-20b, Llama 3.1 70B, Llama 3.1 8B), um Fragebogen-Items zu unterschiedlichen Themen zu erstellen. Die Ergebnisse wurden dann mithilfe des Survey Quality Predictors (SQP 3.0) bewertet und verglichen.
In den Diskussionen der zwei Tage tauchten einige Themen immer wieder auf. Beim Umgang mit echten Befragtendaten wurde beispielsweise häufig die Frage nach dem Datenschutz bei der Verwendung von Cloud-Lösungen gestellt. Andererseits ist die Bereitstellung von lokaler Compute-Infrastruktur an einigen Instituten nicht trivial. Der Einsatz hochskalierter, vortrainierter generativer Modelle, wie ChatGPT wurde kritisch, aber konstruktiv reflektiert. Insgesamt konnten wir einen guten praktischen Einblick gewinnen, woran wir alle gerade arbeiten und wo die konkreten Potenziale und Anwendungsmöglichkeiten von Deep Learning in der Survey-Datenproduktion bereits jetzt liegen – jenseits des immer noch starken AI-Hypes.
Wir waren uns auf jeden Fall einig, dass sich die Veranstaltung gelohnt hat und eine Wiederholung geplant werden sollte. In diesem Sinne nochmals vielen Dank an alle Beteiligten! Und: Stay tuned for DeepSurv 2026!
Hallo Arne und Beteiligte,
vielen Dank für den Bericht und die Links.
Sehr spannend!
Bis zu Slow26.
LG GLEN’s Philipp