Datenaufbereitung – Survey Data Blog

Treffen zur Entwicklung einer Leitlinie zur Datenplausibilisierung am 26.8.19 in Berlin

Am 26. August 2019 findet von 11 bis 16 Uhr in den Räumen des DIW Berlin ein weiteres Treffen zur Entwicklung einer Leitlinie zur Datenplausibilisierung statt.

Die Enwicklung einer solchen (bislang fehlenden) Leitlinie wurde auf dem Workshop „Datenaufbereitung und Dokumentation“ 2017 initiert. Das Treffen am 26. August schließt an eine 2018 durchgeführte Erhebung der Plausibilisierungspraktiken bei 10 großen Forschungsinstituten (u.a. SOEP und DZHW) sowie ein erstes Austauschtreffen zu den aktuellen Plausibilisierungspraktiken im Herbst 2018 (und einer weiteren Arbeitsgruppe auf dem Workshop „Datenaufbereitung und Dokumentation“ 2018) an und hat das Ziel einen Vorschlag für eine Leitlinie zur Datenplausibilisierung zu entwickeln.

Zu dem Treffen sind explizit auch an der Mitarbeit interessierte Kolleg*innen eingeladen, die sich gerade mit dem Thema beschäftigen und an den bisherigen Treffen nicht teilnehmen konnten.

Wir freuen uns über eine kurze Rückmeldungen bis zum 23.8. und verbleiben mit Grüßen aus Berlin und Hannover

Andreas (Franken) vom FDZ SOEP sowie Andreas (Daniel) und Percy (Scheller) vom FDZ-DZHW

Treffen zum Austausch über Plausibilisierungspraktiken am 15.10.18 in Hannover

Am 15.10.2018 soll ein Treffen zur Diskussion von Plausibilisierungspraktiken in großen Befragungsprojekten beziehungsweise bei der Erstellung von Scientific Use Files stattfinden. Das Treffen ist als Startpunkt zu sehen und wird dieses Mal zu Gast beim DZHW in Hannover sein beziehungsweise vom dortigen FDZ organisiert. Das Treffen soll um 11 Uhr beginnen, grob zwei Blöcke umfassen und mit Pausen nicht länger als bis 16-17 Uhr dauern. Interessierte sollten eine kurze E-Mail an scheller@dzhw.eu oder die anderen unten genannten Organisator*innen des Treffens schicken. Details zur Vorbereitung des Treffens sollen im direkten Vorfeld des Treffens bereitgestellt werden.

Die Initiator*innen des Treffen erhoffen sich größere Klarheit, welche unplausiblen Angaben von den Datenproduzent*innen bereinigt/editiert und welche Entscheidungen den Datennutzer*innen überlassen werden sollten. Daran anknüpfend stellt sich die Frage nach einer möglichst nachvollziehbaren und übersichtlichen Dokumentation von vorgenommenen Korrekturen bzw. eventuell noch im Datensatz vorhandenen Problemen. Ziel ist es Gemeinsamkeiten zu identifizieren und referenzierbare Standards mit verschiedenen Plausibilisierungsstufen oder -formen für die Erstellung von Scientific Use Files zu entwickeln, bei dem pro Stufe/Form die Konsequenzen für die Datennutzer*innen festgehalten werden. Ein solcher Standard würde wiederum die Dokumentation insofern erleichtern, dass auf diesen verwiesen werden könnte (z. B. „Die Studie wurde gemäß Standard B plausibilisiert. –> D.h. für Nutzer*in, er/sie muss bei der Arbeit mit den Daten a), b), c) beachten.“)

Es sind explizit auch Wissenschaftler*innen eingeladen, die nicht zu den Initiator*innen beim Workshop „Datenproduktion“ am 19.02.2018 in Bamberg gehört haben (vgl. auch den Aufruf in diesem Blog vom März). Bitte macht/machen Sie gerne auch Kolleg*innen auf das Treffen aufmerksam und leitet/leiten Sie diese Information weiter.

Wir freuen uns über eine kurze Rückmeldungen und verbleiben mit Grüßen aus Hannover

Florene (Baillet), Anne (Weber), Andreas (Daniel) und Percy (Scheller) vom FDZ-DZHW

Austausch zum Thema Plausibilisierung

Wie sich im Zuge des diesjährigen Workshops “Datenproduktion” am 19.02.2018 in Bamberg gezeigt hat, kommt bei der Erstellung von Scientific Use Files – also mit Blick auf die Sekundärnutzung von Daten – immer wieder die Frage auf, welche unplausiblen Angaben bereits von den Datenproduzent*innen bereinigt und welche Entscheidungen den Datennutzer*innen überlassen werden sollten. Daran anknüpfend stellt sich die Frage nach einer möglichst nachvollziehbaren und übersichtlichen Dokumentation von vorgenommenen Korrekturen bzw. eventuell noch im Datensatz vorhandenen Problemen.

Daher wurde in einer der Diskussionsrunden vereinbart, eine Bestandsaufnahme der bisherigen Plausibilisierungspraktiken in verschiedenen Studien und Institutionen vorzunehmen, um darauf aufbauend gemeinsam einen Standard mit verschiedenen Plausibilisierungsstufen oder -formen für die Erstellung von Scientific Use Files zu entwickeln, bei dem pro Stufe/Form die Konsequenzen für die Datennutzer*innen festgehalten werden. Ein solcher Standard würde wiederum die Dokumentation insofern erleichtern, dass auf diesen verwiesen werden könnte (z. B. “Die Studie wurde gemäß Standard B plausibilisiert. –> D.h. für Nutzer*in, er/sie muss bei der Arbeit mit den Daten a), b), c) beachten.”)

Wir würden uns sehr freuen, wenn sich möglichst viele von Euch an der Bestandsaufnahme beteiligen würden. Dafür haben wir die Tabelle Plausibilisierung_Bestandsaufnahme vorbereitet. Sie enthält verschiedene Formen unplausibler Angaben und Ihr könnt eintragen, ob/wie Ihr Eure Daten daraufhin prüft, ob/wie Ihr gefundene Fehler bereinigt und ob/wie Ihr die Bereinigung bzw. (falls keine Bereinigung stattfindet) die gefundenen Fehler dokumentiert. Sofern wir etwas vergessen haben, bitte einfach gerne individuell ergänzen.

Wenn ihr euch beteiligen wollt, füllt bitte die Tabelle pro Projekt oder Institution aus, verseht die Datei mit eurem Kürzel und sendet sie bis zum 13.04. an uns zurück (daniel@dzhw.eu).

Wir werden alle Tabellen sichten, zusammenführen und bis Anfang Mai an alle herumschicken, die sich an der Bestandsaufnahme beteiligt oder anderweitig Interesse an dem Thema bei uns bekundet haben. Im Mai/Juni würden wir dann ein Treffen zur weiteren Absprache in Hannover organisieren. Dafür könnt Ihr Euch bereits jetzt in das folgende Doodle eintragen: https://dudle.inf.tu-dresden.de/Plausi/. Um eine entspannte An- und Abreise zu gewährleisten, wollen wir um 12:00 starten und gegen 16:00 Uhr enden.

Wir freuen uns auf Eure Rückmeldungen, liebe Grüße aus Hannover

Anne (Weber) und Andreas (Daniel) vom FDZ-DZHW

EXPLORELABS – Stata Ado zur Unterstützung in der Erschließung von Labels

Vor kurzem habe ich ein neues Ado für Stata beim Statistical Software Component Archive (SSC) veröffentlicht, dass den Prozess der Erschließung von Wertelabels in Datensätzen unterstützt. Es heißt EXPLORELABS und kann wie gewohnt mit dem Befehl “ssc install explorelabs” in der Kommandozeile von Stata heruntergeladen werden.

EXPLORELABS ermöglicht dem Nutzer die Wertelabel einer beliebigen Anzahl von Variablen aus dem Datensatz nach bestimmten Mustern zu betrachten. So können entweder alle Werte, nur negative oder nur eine bestimmte Anzahl an letzten/höchsten Werte ausgegeben werden. Zwei Möglichkeiten des Outputs stehen zur Ansicht der gefundenen Wertelabels zur Verfügung: EXPLORELABS – Stata Ado zur Unterstützung in der Erschließung von Labels weiterlesen