Anonym vs. pseudonym

Screenshot netzpolitik.org

Das Blog netzpolitik.org berichtet unter dem Titel „Weitere Studie belegt Lüge ‚anonymer‘ Daten“ über eine Studie in der wissenschaftlichen Fachzeitschrift Nature, die Probleme bei der Anonymisierung beschreibt. Durch Streichung der Namen erreiche man keine Anonymität, sondern in lediglich Pseudonymität.

Kurzbericht vom jährlichen Workshop „Datenaufbereitung und Dokumentation“

Der diesjährige Workshop wurde vom DZHW organisert, er fand erneut im Vorfeld des Panelworkshops statt. Im bewährter Art und Weise wurde nach der open-space-Methode vorgegangen.

Die Tagesordnung am ersten Tag.
Das war die Tagesordnung des zweiten Tags.

Dabei wurden etwa die Ergebnisse des Plausibilisierungsworkshops aufgegriffen oder über die Zusammenarbeit mit den Erhebungsinstituten diskutiert. Auch Techniken und Konzepte der Datenaufbereitung, Vorgehensweise bei Berufskodierungen oder Probleme des Datenschutzes fanden am ersten Tag Beachtung.

Stichproben und Gewichtung, strukturierte Metadaten und Kontextdaten waren Themen am zweiten Tag.

Im nächsten Jahr soll der Workshop um einen halben Tag verlängert werden, der für die Ergebnissicherung genutzt werden soll.

Regelmäßige Updates zu einschlägigen Topics gibt es hier im Blog, außerdem steht mit [Datenproduktion] eine Mailingliste zur Verfügung. In beiden Medien wird die Einladung für den nächsten Workshop veröffentlicht, der dann vermutlich vom Panelworkshop entkoppelt sein wird.

RDA Deutschland: Tagung 2019 [Update]

Logo von RDA-DE

Das Jahrestreffen der deutsche RDA-Community wird am 19:/20. Februar 2019 am GFZ in Potsdam stattfinden.

Schwerpunktthema der Tagung wird die Nationale Forschungsdateninfrastruktur sein. Beiträge in Posterform sind willkommen. Im Rahmen der Tagung wird auch die öffentliche Mitgliederversammlung von RDA-DE e.V. stattfinnden.

Update 18.01.2019: Das Programm ist veröffentlicht, die Anmeldung ist jetzt möglich und der Teilnahmebeitrag beträgt 80 EUR.

Bewerbung für den Studiengang “International Survey and Data Science” wieder möglich

Die Uni Mannheim und das “Joint Program in Survey Methodology” (Uni Maryland) gehen mit ihrem International Program in Survey and Data Science (kurz: IPSDS) jetzt in die vierte Runde. Wie Ihr Euch für das Weiterbildungsprogramm bewerben könnt lest Ihr im offiziellen Ankündigungstext. Ach ja: bis Februar 2019 ist die Teilnahme gebührenfrei 🙂

Dear all,
We are pleased to announce that the application process to join the 4th cohort of the International Program in Survey and Data Science (IPSDS) is now open.

The International Program in Survey and Data Science is a joint program offered through the University of Mannheim and the Joint Program in Survey Methodology – a consortium of the University of Maryland, the University of Michigan, and Westat.

The IPSDS offers:

  • A multidisciplinary curriculum with a focus on survey methodology and data science that prepares you for the challenges of working with designed data from surveys and organic data (aka “found data” or “big data”).
  • A flexible online learning environment that allows you to take courses from anywhere in the world.
  • Live interaction with world-class faculty from leading universities and organizations who will share their academic and practical experience with you.

The program is currently funded by a grant from the German Federal Ministry of Education and Research as part of the initiative “Aufstieg durch Bildung: offene Hochschulen.” Due to the funding, participation in the program until February 2019 is tuition-free. Thereafter, fees will be charged for part of the program, while newcourses willcontinue to be free of charge.

All relevant information about the admission process can be found at:
http://survey-data-science.net/program/admission.
Please note that we will hold a live online Q&A-session on:

  • November 22, 2018 (6:00 PM-7:00 PM CET)
  • January 16, 2019 (6:00 PM-7:00 PM CET)

You can sign up for the Q&A by sending an email to ipsds@uni-mannheim.de.

Sincerely,
IPSDS Team
Professorship for Statistics and Methodology
University of Mannheim
A5, 6
68131 Mannheim
Tel. ++49 (0) 621 / 181-3771
ipsds@uni-mannheim.de
http://survey-data-science.net

Jetzt zur EDDI 2018 in Berlin anmelden

Die EDDI2018 findet am 4. und 5. Dezember 2018 in Berlin statt. Neben vielen Vorträgen und Diskussionen zum Metadatenstandard DDI stehen auch wieder Tutorials auf dem Programm. Die Keynote wird Simon Hodson, Executive Director of CODATA mit dem Titel „Making Fair Data a Reality… and the Challenges of Interoperability and Reusability” halten. Die Anmeldung zum regulären Preis (240 EUR) läuft noch bis zum 18. November.

ESRA 2019 in Zagreb: Abstracts bis 18. November 2018 einreichen

Banner der ESRA 2019. Quelle: https://www.europeansurveyresearch.org/conferences/overview

Die Konferenzen der European Survey Research Association (ESRA) bieten auch immer die Möglichkeit, Themen aus Forschungsdatenzentren zu diskutieren. Die 8. ESRA-Konferenz findet im Juli 2019 in Zagreb statt. Der Call for Abstracts läuft noch bis 18. November 2018, es wurden 120 Sessions angenommen.

Im Bereich Data management and post-survey processing, der für Forschungsdatenzentren interessant sein dürfte, vier Sessions:

Aber auch in den Bereichen

  • Survey methods and data quality
  • Questionnaire design and testing
  • Modes of data collection
  • Survey fieldwork processes
  • Combining survey data with other sources

dürften sich Sessions mit attraktiven Themen finden lassen.

Workshop „Datenaufbereitung und Dokumentation“ am 04./05. März 2019

Der Workshop zur Datenaufbereitung und Dokumentation wird vom 04. März 2019 (12:00 Uhr) bis 05. März 2019 (12:00 Uhr) am Deutschen Zentrum für Hochschul- und Wissenschaftsforschung (DZHW) in Hannover stattfinden.

Ziel des Workshops ist es, den Austausch über Fragestellungen und Herausforderungen in der Datendokumentation und -produktion in sozialwissenschaftlichen Längsschnittstudien zu befördern. Wie üblich wird der Workshop nach dem Modell der Open Space Technology (https://en.wikipedia.org/wiki/Open_Space_Technology) durchgeführt. Im Rahmen dieses Modells wird sich die Veranstaltung inhaltlich selbst organisieren und lebt von der aktiven Gestaltung der Teilnehmenden. Für eine erfolgreiche Durchführung bietet es sich daher an, sich bereits im Vorfeld Gedanken über Themenfelder zu machen, die im Rahmen des Workshops diskutiert werden können. Das Format richtet sich an Mitarbeitende in sozialwissenschaftlichen (Längsschnitts-)Studien, die operativ mit der Datendokumentation und Datenproduktion beschäftigt sind und hat einen mehr oder weniger festen Teilnehmerkreis, der selbstverständlich für sinnvolle Ergänzungen offen ist.

Da die Unterkünfte in der Messestadt Hannover häufig recht stark gebucht sind, bitte ich euch, frühzeitig eine Unterkunft zu buchen.

Im direkten Anschluss an den Workshop findet der 13. Workshop der Panelstudien im deutschsprachigen Raum statt (05.03.2019 (12:30) – 06.03.2019 (12:30)) .

Die offizielle Anmeldeseite für beide Veranstaltungen wird demnächst freigeschaltet werden.

Für Rückfragen stehe ich euch sehr gerne zur Verfügung (daniel@dzhw.eu).

Beste Grüße

Andreas Daniel (Forschungsdatenzentrum des DZHW)


Treffen zum Austausch über Plausibilisierungspraktiken am 15.10.18 in Hannover

Am 15.10.2018 soll ein Treffen zur Diskussion von Plausibilisierungspraktiken in großen Befragungsprojekten beziehungsweise bei der Erstellung von Scientific Use Files stattfinden. Das Treffen ist als Startpunkt zu sehen und wird dieses Mal zu Gast beim DZHW in Hannover sein beziehungsweise vom dortigen FDZ organisiert. Das Treffen soll  um 11 Uhr beginnen, grob zwei Blöcke umfassen und mit Pausen nicht länger als bis 16-17 Uhr dauern. Interessierte sollten eine kurze E-Mail an scheller@dzhw.eu oder die anderen unten genannten Organisator*innen des Treffens schicken. Details zur Vorbereitung des Treffens sollen im direkten Vorfeld des Treffens bereitgestellt werden.

Die Initiator*innen des Treffen erhoffen sich größere Klarheit, welche unplausiblen Angaben von den Datenproduzent*innen bereinigt/editiert und welche Entscheidungen den Datennutzer*innen überlassen werden sollten. Daran anknüpfend stellt sich die Frage nach einer möglichst nachvollziehbaren und übersichtlichen Dokumentation von vorgenommenen Korrekturen bzw. eventuell noch im Datensatz vorhandenen Problemen. Ziel ist es Gemeinsamkeiten zu identifizieren und referenzierbare Standards mit verschiedenen Plausibilisierungsstufen oder -formen für die Erstellung von Scientific Use Files zu entwickeln, bei dem pro Stufe/Form die Konsequenzen für die Datennutzer*innen festgehalten werden. Ein solcher Standard würde wiederum die Dokumentation insofern erleichtern, dass auf diesen verwiesen werden könnte (z. B. „Die Studie wurde gemäß Standard B plausibilisiert. –> D.h. für Nutzer*in, er/sie muss bei der Arbeit mit den Daten a), b), c) beachten.“)

Es sind explizit auch Wissenschaftler*innen eingeladen, die nicht zu den Initiator*innen beim Workshop „Datenproduktion“ am 19.02.2018 in Bamberg gehört haben (vgl. auch den Aufruf in diesem Blog vom März). Bitte macht/machen Sie gerne auch Kolleg*innen auf das Treffen aufmerksam und leitet/leiten Sie diese Information weiter.

Wir freuen uns über eine kurze Rückmeldungen und verbleiben mit Grüßen aus Hannover

Florene (Baillet), Anne (Weber), Andreas (Daniel) und Percy (Scheller) vom FDZ-DZHW

Google will Datensätze finden

Screenshot der Google-Datensatz-Suche

Update: Im Blogbeitrag Building Google Dataset Search and Fostering an Open Data Ecosystem gibt es weitere Informationen.

Google hat eine Beta-Version der Google-Datensatz-Suche veröffentlicht. Damit werden heute schon insbesondere alle Datensätze gefunden, für die bei der da|ra DOIs registriert wurden. Details zu dem neuen Suchdienst finden sich im Beitrag „Making it easier to discover datasets“ im Google-Unternehmensblog.

Wahrscheinlich das interessanteste Feature, das die Datensatz-Suche von Google von anderen Angeboten (RatSWD, B2FIND, gesisDataSearch) unterschiedet, ist die Möglichkeit auch Variablen zu finden. Es lohnt sich also, Metadaten auf Variablenebene vorzuhalten. Hierfür wurde mit variableMeasured eine Erweiterung des zugrundeliegenden Datensatz-Schemas im schema.org-Vokabular vorgeschlagen.