Die 7. Konferenz der europäischen DDI-Nutzer_innen findet am 2. und 3. Dezember in Kopenhagen statt. Die Deadline für die Einreichung von Beiträgen ist der 6. September, der Call-for-papers wird am 22. Mai veröffentlicht. Die Konferenzwebseite enthält schon jetzt die wichtigsten Hinweise.
Big Data: Erstes DataFest Germany in Mannheim
Vom 20. bis 22. März 2015 fand an der Uni Mannheim das erste DataFest in Deutschland statt. Ca. 90 Studenten von verschiedenen Unis aus dem ganzen Bundesgebiet haben drei Tage lang mehrere Gigabytes an Handy-App-Daten mit Stata und R zerlegt. Ziel war es kurze Präsentationen zu erstellen mit denen sie Preise für die beste Erkenntnis, die beste Visualisierung und die beste Verwendung von zusätzlichen Daten gewinnen konnten.
Paper: User-focused threat identification for anonymised microdata
When producing anonymised microdata for research, national statistics institutes (NSIs) identify a number of ‘risk scenarios’ of how intruders might seek to attack a confidential dataset. Hans-Peter Hafner, Felix Ritchie and Rainer Lenz argue in their paper “User-focused threat identification for anonymised microdata” (PDF) that the strategy used to identify confidentiality protection measures can be seriously misguided, mainly since scenarios focus on data protection without sufficient reference to other aspects of data. This paper brings together a number of findings to see how the above problem can be addressed in a practical context. Using as an example the creation of a scientific use file, the paper demonstrates that an alternative perspective can have dramatically different outcomes. (Source: Authors’ abstract)
SPSS pitfalls: Combining files with custom variable attributes
Adding custom variable-attributes is a useful feature of SPSS available since version 14 of 2005. It can be used to assign additional information to variables and store it with the survey data, e.g. metadata or paradata. However, compared to the attributes reserved by SPSS (like variable labels or value labels), user-defined attributes demand extra attention and there are some pitfalls to look out for. SPSS pitfalls: Combining files with custom variable attributes weiterlesen
Datenaufbereitung: Querschnitts- und Episodendaten zusammenführen
Im Rahmen von Befragungen werden oft Informationen retrospektiv über Zeiträume erhoben: z. B. in Kalendarien oder verschleiften Historien. Die Daten werden dann möglicherweise als Spell- oder Episodendatensatz getrennt von den Querschnittsdaten abgelegt. Für das Panel “Arbeitsmarkt und soziale Sicherungen” (PASS) gibt es jetzt ein Papier das beispielhaft erklärt, wie man in solchen Fällen die Querschnitts- und Episodendaten zusammenführen kann:
PASS Quick Start File – Spellinformationen im Querschnitt
Auch wenn im Beispiel mit PASS-Daten gearbeitet wird ist das Stata-do-File hoffentlich hinreichend allgemein dokumentiert um auch für andere Studien nützlich zu sein. Feedback willkommmen!
do-Dateien und R-Skripte: Style-Guides helfen, den Code zu verstehen
Wer zusammen Daten aufbereitet, wird wohl oder übel auch einmal in die Lage kommen, Skripte verstehen zu müssen, die andere geschrieben haben. Das ist nicht immer ganz einfach.
Die Situation verbessert sich, wenn der Aufbau des Codes vereinbarten Kriterien folgt und deshalb empfiehlt z.B. Google für die Softwareentwicklung, sich an bestimmte Regeln zu halten: Es gibt Style-Guides für die verschiedensten Programmiersprachen.
Aber auch für Stata und R lassen sich entsprechende Empfehlungen finden:
- Suggestions on Stata programming style von Nicholas J. Cox im Stata Journal
- Adopt: Coding Style Guide (PDF) von Todd Kawakita und Jared Silver aus dem SDP Toolkit for Effective Data Use für Stata
- Google’s R Style Guide
- Style Guide aus Advanced R von Hadley Wickham
Code, der Style-Guides entspricht, ist leichter (wieder) zu verstehen und zu warten. Es ist sicher eine gute Idee, sich an solchen Style Guides zu orientieren oder sie für die eigenen Arbeiten anzupassen.