Workshop „Datenaufbereitung und Dokumentation“ am 04./05. März 2019

Der Workshop zur Datenaufbereitung und Dokumentation wird vom 04. März 2019 (12:00 Uhr) bis 05. März 2019 (12:00 Uhr) am Deutschen Zentrum für Hochschul- und Wissenschaftsforschung (DZHW) in Hannover stattfinden.

Ziel des Workshops ist es, den Austausch über Fragestellungen und Herausforderungen in der Datendokumentation und -produktion in sozialwissenschaftlichen Längsschnittstudien zu befördern. Wie üblich wird der Workshop nach dem Modell der Open Space Technology (https://en.wikipedia.org/wiki/Open_Space_Technology) durchgeführt. Im Rahmen dieses Modells wird sich die Veranstaltung inhaltlich selbst organisieren und lebt von der aktiven Gestaltung der Teilnehmenden. Für eine erfolgreiche Durchführung bietet es sich daher an, sich bereits im Vorfeld Gedanken über Themenfelder zu machen, die im Rahmen des Workshops diskutiert werden können. Das Format richtet sich an Mitarbeitende in sozialwissenschaftlichen (Längsschnitts-)Studien, die operativ mit der Datendokumentation und Datenproduktion beschäftigt sind und hat einen mehr oder weniger festen Teilnehmerkreis, der selbstverständlich für sinnvolle Ergänzungen offen ist.

Da die Unterkünfte in der Messestadt Hannover häufig recht stark gebucht sind, bitte ich euch, frühzeitig eine Unterkunft zu buchen.

Im direkten Anschluss an den Workshop findet der 13. Workshop der Panelstudien im deutschsprachigen Raum statt (05.03.2019 (12:30) – 06.03.2019 (12:30)) .

Die offizielle Anmeldeseite für beide Veranstaltungen wird demnächst freigeschaltet werden.

Für Rückfragen stehe ich euch sehr gerne zur Verfügung (daniel@dzhw.eu).

Beste Grüße

Andreas Daniel (Forschungsdatenzentrum des DZHW)


Austausch zum Thema Plausibilisierung

Wie sich im Zuge des diesjährigen Workshops „Datenproduktion“ am 19.02.2018 in Bamberg gezeigt hat, kommt bei der Erstellung von Scientific Use Files – also mit Blick auf die Sekundärnutzung von Daten – immer wieder die Frage auf, welche unplausiblen Angaben bereits von den Datenproduzent*innen bereinigt und welche Entscheidungen den Datennutzer*innen überlassen werden sollten. Daran anknüpfend stellt sich die Frage nach einer möglichst nachvollziehbaren und übersichtlichen Dokumentation von vorgenommenen Korrekturen bzw. eventuell noch im Datensatz vorhandenen Problemen.

Daher wurde in einer der Diskussionsrunden vereinbart, eine Bestandsaufnahme der bisherigen Plausibilisierungspraktiken in verschiedenen Studien und Institutionen vorzunehmen, um darauf aufbauend gemeinsam einen Standard mit verschiedenen Plausibilisierungsstufen oder -formen für die Erstellung von Scientific Use Files zu entwickeln, bei dem pro Stufe/Form die Konsequenzen für die Datennutzer*innen festgehalten werden. Ein solcher Standard würde wiederum die Dokumentation insofern erleichtern, dass auf diesen verwiesen werden könnte (z. B. „Die Studie wurde gemäß Standard B plausibilisiert. –> D.h. für Nutzer*in, er/sie muss bei der Arbeit mit den Daten a), b), c) beachten.“)

Wir würden uns sehr freuen, wenn sich möglichst viele von Euch an der Bestandsaufnahme beteiligen würden. Dafür haben wir die Tabelle Plausibilisierung_Bestandsaufnahme vorbereitet. Sie enthält verschiedene Formen unplausibler Angaben und Ihr könnt eintragen, ob/wie Ihr Eure Daten daraufhin prüft, ob/wie Ihr gefundene Fehler bereinigt und ob/wie Ihr die Bereinigung bzw. (falls keine Bereinigung stattfindet) die gefundenen Fehler dokumentiert. Sofern wir etwas vergessen haben, bitte einfach gerne individuell ergänzen.

Wenn ihr euch beteiligen wollt, füllt bitte die Tabelle pro Projekt oder Institution aus, verseht die Datei mit eurem Kürzel und sendet sie bis zum 13.04. an uns zurück (daniel@dzhw.eu).

Wir werden alle Tabellen sichten, zusammenführen und bis Anfang Mai an alle herumschicken, die sich an der Bestandsaufnahme beteiligt oder anderweitig Interesse an dem Thema bei uns bekundet haben. Im Mai/Juni würden wir dann ein Treffen zur weiteren Absprache in Hannover organisieren. Dafür könnt Ihr Euch bereits jetzt in das folgende Doodle eintragen: https://dudle.inf.tu-dresden.de/Plausi/. Um eine entspannte An- und Abreise zu gewährleisten, wollen wir um 12:00 starten und gegen 16:00 Uhr enden.

Wir freuen uns auf Eure Rückmeldungen, liebe Grüße aus Hannover

Anne (Weber) und Andreas (Daniel) vom FDZ-DZHW

Arbeiten am FDZ-DZHW

Das FDZ-DZHW sucht zum 1. September 2017

eine(n) wissenschaftliche(n) Mitarbeiter(in) für das Projekt „Maßnahmen zur Effizienzsteigerung des FDZ-DZHW in den Bereichen Datenaufnahme, Nutzeranfragen und Kommunikation“.

Aufgabenbeschreibung

  • Weiterentwicklung des FDZ-eigenen Metadatenmanagementsystem mit dem Fokus auf eine effiziente Datenaufnahme innerhalb des DZHW
  • Optimierung der Prozesse zur Aufnahme externer Daten
  • Erarbeitung von Vorlagen für Skalenhandbücher
  • Öffentlichkeitsarbeit

Weitere Infomationen finden sich hier

Data-Science-Podcasts

Ich will an dieser Stelle die Gelegenheit nutzen und ein paar Podcasts empfehlen, die sich dem allgemein im Bereich Data Science bewegen. Ich habe erst vor ein paar Monaten angefangen, nach derartigen Podcasts zu suchen. Die Liste ist daher eine subjektive Auswahl und erhebt keinen Anspruch auf Vollständigkeit. Wenn ihr noch weitere Tipps habt, schreibt diese doch in die Kommentare 🙂

Manche mögen es vielleicht als Vorteil sehen, aber ein aus meiner Sicht grundlegendes Mako von fast allen hier präsentierten Podcasts ist deren zumeist ungewöhnlich kurze Dauer (<60 Min). Gerade wenn man sich in das Thema hineingedacht hat, ist die Folge auch schon wieder vorbei. Hier würde ich mir wünschen, dass die Themen mit noch etwas mehr Ruhe besprochen werden würden.

Was mir insgesamt noch fehlt ist ein Podcast, der sich mit (Forschungs)dateninfrastruktur und Datenaufbereitung befasst. Vielleicht findet sich ja jemand aus der Survey-Data-Blog-Community, die/der Zeit und Interesse hat, so etwas auf die Beine zu stellen. Wie wir in Nürnberg auf dem Datenaufbereitungsworkshop gesehen haben, mangelt es uns ja nicht an Themen.

Hier die Liste mit den Podcasts:

Data Skeptic
Der Podcast rund um das Thema Data Science erscheint in zwei Formaten: In den Mini-Episoden spricht der Host Kyle mit seiner Frau ganz basal über unterschiedliche statistische Verfahren und Konzepte. Dies ist manchmal vielleicht etwas sehr spielerisch, ich finde es aber insbesondere bei mir unbekannten Methoden sehr gut, um einen ersten Einblick in das Thema zu bekommen.
In den längeren Episoden werden Themen meist ausführlicher behandelt. Hierfür sind häufig sehr interessante Gesprächspartner zu Gast. Neben dem Podcast lohnt sich auch ein Blick in den zugehörigen Blog.

Linear Digressions
Vom Konzept her recht ähnlich zu Data Skeptic. Auch dieser Podcast versucht Data-Science-Themen auf einfache Weise zu beleuchten, geht dabei jedoch nicht so grundsätzliche Themen an wie die Mini-Episoden von Data Skeptic.

Dig Deep
Ein sehr guter deutschsprachiger Podcast, in dem „Neues aus der digitalen Welt“ behandelt wird, wie der recht generische Untertitel verspricht. Neben interessanten Beiträgen zum Thema Data Science werden daher auch gesellschaftspolitische Fragestellungen behandelt. Die beiden Hosts Frauke Kreuter und Christof Horn bringen dabei sehr gekonnt ihre unterschiedlichen Perspektiven aus Wissenschaft und freier Wirtschaft ein.

Partially Derivative
Eine Folge dieses ganz hervorragenden Podcasts hatte Arne vor kurzer Zeit bereits gepostet. Der Podcast lebt vor allem von den sehr guten Gästen, die aus ihren jeweiligen Spezialgebieten berichten.

O’Reilly Data Show
Dieser Podcast widmet sich ebenfalls vielen interessanten Fragstellungen. So dreht sich eine Folge beispielsweise um die Frage, warum Emotionen für AI bedeutsam sind. Eine weitere Folge thematisiert die Nutzung agiler Organisationsformen in der Data Science.

Data Stories
Dies ist wahrscheinlich DER Podcast für Datenvisualisierung.

Modellansatz
Dieser mathematisch orientierte Podcast vom KIT behandelt ganz unterschiedliche mathematische Fragestellungen, die auch immer wieder den Bereich der Data Science streifen. So wird beispielsweise die Vorhersage von Gelegenheitsverbrechen mittels Modellen zur Erdbebevorhersage behandelt.

Five Thirty Eight Podcasts
Auf dem bekannten Blog von Nate Silver werden drei Podcasts veröffentlicht, die sich mit inhaltlichen Themen befassen und diese vor dem Hintergrund verschiedener Datenquellen beleuchten. Im Politics Podcasts geht es um aktuelle politische Themen (zumeist aus der amerikanischen Innenpolitik). In Hot Takedown werden Themen aus den US-Sports betrachtet. In What’s the Point  geht es eher um allgemeine Fragestellungen bezüglich des Einflusses von Daten auf gesellschaftliche Prozesse.

R-Podcast
Diesen Podcast habe ich erst kürzlich entdeckt und hatte noch keine Gelegenheit ihn ausführlicher zu hören. Er hört sich aber dafür schon sehr interessant an.