Masse statt Klasse? – Entstehungsprozesse, Qualitätsprobleme und Verwendungsmöglichkeiten von prozessgenerierten Daten im digitalen Zeitalter

Auch wenn prozessproduzierte Massendaten (sogenannte „Big Data“) etwa in Form von staatlichen Verwaltungsdaten eine mehr als zweihundertjährige Tradition haben, hat sich deren Verfügbarkeit in den letzten Jahrzehnten dramatisch gesteigert:

  1. Zum einen werden administrative Daten, die als Nebenprodukt von organisationalen und behördlichen Prozessen entstehen (z.B. Registerdaten, Kundendaten), nicht nur seit den 1970er Jahren digital gespeichert und verarbeitet, sondern werden seit Ende der 1990er Jahre etwa über Forschungsdatenzentren und den RatSWD zunehmend für wissenschaftliche Analysen zugänglich gemacht.
  2. Zum anderen entstehen als Nebenprodukt der digitalen Kommunikation im Web 2.0 neue Arten von Massendaten (z.B. Websites, Blogs, Social Media), die – anders als frühere prozessproduzierte Daten – von den Nutzern dieser Dienste unbewusst und/oder freiwillig generiert werden, bei denen sich die Geschwindigkeit der Datenproduktion stark erhöht hat und die Rechte an den Daten nicht mehr bei staatlichen Akteuren, sondern bei Firmen liegen oder uneindeutig sind.

Nicht nur die Forschungsdatenzentren, sondern auch historische Datenarchive und eine Vielzahl universitärer Projekte arbeiten daran beide Datensorten, also bisher unerschlossene alte Datensammlungen ebenso wie neue digitale Daten, zunehmend für die Forschung zugänglich zu machen. Damit erweitern sich Möglichkeiten für die Sozialwissenschaften, soziale Phänomene sowohl aus aktueller, als auch historischer Blickrichtung zu analysieren. Das gilt umso mehr, je stärker Datensätze miteinander verknüpft und digitale Massendaten in Kombination miteinander und mit forschungsinduzierten Daten einer Analyse zugänglich gemacht werden können.

Im methodologischen Umgang mit diesen Massendaten zeichnet sich ein erstaunlicher Gegensatz ab:

  1. Die empirische Sozialforschung fokussiert sich in ihren Analysen vorwiegend auf die klassischen administrativen Daten, und die Erkenntnis, dass diese Daten sozial konstruiert sind und damit eigene methodologischen Probleme mit sich bringen, die bei der Analyse reflektiert werden müssen. Diese Methodendebatte war bereits ein wesentliches Moment der Gründung der deutschsprachigen Soziologie und der quantitativen empirischen Sozialforschung, die in den 1970ern wiederbelebt wurde. Als Ergebnis dieser Debatte wurde das Konzept der „Datenkunde“ (als alternative zur „Fehlerkunde“ im Survey-Prozess) eingeführt, verbunden mit der Forderung, dass vor der Auswertung eines
    Datenbestands analysiert werden muss, wie die Datenproduktion durch organisationale Regeln, Alltagspraktiken der Datenproduzenten sowie Verhalten der Klienten überformt wird, um daraus die spezifischen Verzerrungen der Population bzw. Stichprobe sowie der Fehler in den Daten zu identifizieren. In den letzten zwei Jahrzehnten existiert vor allem im Kontext der Forschungsdatenzentren eine intensive Methodenforschung, die diese spezifische Verzerrungsprozesse und die sich daraus ergebenden methodologischen Probleme erkundet.
  2. Die internationale „Computational Social Science“ fokussiert in ihren Analysen vorwiegend auf die im Zuge der digitalen Kommunikation entstandenen neuen Sorten von Massendaten. In der Methodenforschung wendet sich die „Computational Social Science“ zunehmend auf neue Analysetechniken und Algorithmen zur Auswertung von Big Data zu. Auch hier zeichnet sich eine Methodendebatte an, die vornehmlich pragmatische Machbarkeitsprobleme ebenso wie die Strukturierung durch Technik thematisiert.

Diese beiden Forschungsstränge sind bislang kaum verbunden und weisen wechselseitige blinde Flecken auf. Durch einen produktiven Austausch könnten beide Forschungsstränge wechselseitig profitieren: Beispielsweise erscheint eine Debatte über die Potentiale neuer Auswertungstechniken aus den Computational Social Science im Bereich der historischen Massendaten vielversprechend. Anderseits erscheint eine kritische Auseinandersetzung mit der Fehlerhaftigkeit und internen Verzerrung von jenen Daten, die in digitalen Prozessen generiert wurden, notwendig.

Dieser Workshop will einen Beitrag zu einem solchen Austausch leisten und hat das Ziel, die Entstehungsbedingungen analoger und digitaler prozess-generierter Daten zu reflektieren und ihre damit verbundenen Verwendungsschwierigkeiten zu diskutieren. Hierzu gehört auch die Frage, ob und wie das Konzept der „Datenkunde“ erweitert oder aktualisiert werden muss. Damit rücken neben messbezogenen Eigenschaften gesellschaftliche, politische und wirtschaftliche Bedingungen in die Betrachtung, die eine Interpretation von Analyseergebnissen erst sinnvoll machen. Der Workshop will diese methodologischen wie theoriebezogenen Fragen auch mit der Absicht stellen, Möglichkeiten aufzuzeigen, mit denen die Aussagekraft prozessgenerierter Daten in sozialwissenschaftlichen Untersuchungen gesteigert werden kann.

Wenn Sie an dem Workshop mit einen Vortrag/einer Präsentation teilnehmen wollen, senden Sie uns bitte das Thema bis zum 30.10.2017 per -Mail an nina.baur@tu-berlin.de zu.

Ankündigung: Workshop Datenaufbereitung und Dokumentation 2018

Das Team des Forschungsdatenzentrums am Leibniz-Institut für Bildungsverläufe (FDZ-LIfBi) freut sich, im kommenden Jahr den Workshop „Datenaufbereitung und Dokumentation” ausrichten zu dürfen. Der Workshop wird am 19. und 20. Februar 2018 in den Räumlichkeiten des LIfBi in Bamberg stattfinden. Die Teilnahme ist gebührenfrei.

Ankündigung: Workshop Datenaufbereitung und Dokumentation 2018 weiterlesen

Der Faktor Persönlichkeit: Wie das Teilen von Forschungsdaten gefördert werden kann

Das Teilen von Forschungsdaten ist ein soziales Dilemma. Denn obgleich das Teilen von Forschungsdaten großes Potential für den wissenschaftlichen Fortschritt bietet, wird dies seitens der Wissenschaftler/innen selbst wenig praktiziert. Welche Rolle innerhalb dieses sozialen Dilemmas die Persönlichkeit der Wissenschaftlerin bzw. des Wissenschaftlers spielt und welche individuellen Hindernisse und Anreize beachtet werden müssen, nimmt eine Untersuchung der ZBW – Leibniz-Informationszentrum Wirtschaft in Kooperation mit dem Leibniz-Forschungsverbund Science 2.0 in den Blick.

Ob ein Wissenschaftler oder eine Wissenschaftlerin seine oder ihre Forschungsdaten teilt, hängt mitunter stark von der Persönlichkeit ab. Dies zeigte eine bundesweite fachübergreifende Studie mit 1.564 Probandinnen und Probanden im Rahmen des Leibniz-Forschungsverbundes Science 2.0 (http://www.leibniz-science20.de/de/).

Die Studie zeigte, dass je nach Persönlichkeit der Forscherin oder des Forschers verschiedene Anreize und Barrieren einen unterschiedlichen Stellenwert einnehmen.
Dr. Stephanie B. Linek, Wissenschaftlerin an der ZBW – Leibniz-Informationszentrum Wirtschaft (http://www.zbw.eu) und Hauptautorin der Studie „Data Sharing as social dilemma“ erörtert: „Für einen offenen Austausch von Forschungsdaten ist es wichtig, auch auf die Forscher/innen selbst einzugehen und je nach Persönlichkeit individuelle Anreize zu bieten und subjektive Barrieren zu beseitigen.“

Zugrunde liegt der Untersuchung von Linek et al. (2017) eine Persönlichkeitstypisierung nach dem Fünf-Faktoren-Modell, d.h. (1) Extraversion / Neigung zu Geselligkeit, (2) Neurotizismus / Neigung zu emotionaler Labilität und Verletzlichkeit (3) Offenheit für Erfahrungen /Aufgeschlossenheit, (4) Verträglichkeit (Rücksichtnahme, Kooperationsbereitschaft, Empathie) und (5) Gewissenhaftigkeit /Perfektionismus. Zusätzlich wurden die Persönlichkeitsfacetten Machiavellismus (manipulative, eigennützige und instrumentelle Natur) und soziale Erwünschtheit sowie Alter und Geschlecht als soziodemographische Kontrollvariablen miteinbezogen.

Linek et al. ziehen unter anderem folgende Schlüsse aus ihrer Untersuchung:

  • Für Forscher/innen mit einem hohen Maß an Gewissenhaftigkeit bzw. Perfektionismus ist es wichtig zu wissen, wofür die Daten verwendet werden und wer Zugang zu den Daten hatte. Dabei kann auch der kommunikative Austausch mit den Sekundärdatennutzer/innen einen Anreiz bieten. Ein ähnliches Bild findet sich auch für die Persönlichkeitsdimensionen Extraversion/Geselligkeit und Verträglichkeit. Die Sekundärnutzung sollte also transparent sein und die Möglichkeit bieten, sich mit den Nachnutzer/innen der Daten auszutauschen.
  • Wissenschaftler/innen mit einer hohen Ausprägung an Neurotizismus, die Angst vor Kritik und Datenverfälschung haben, motivieren eher detaillierte Informationen über das konkrete Verfahren der Datenverteilung, Nutzungseinschränkungen und spezifische Nutzungsvereinbarungen der sekundären Datenverwendung. Ebenso Mitspracherecht oder eine Veto-Option in Bezug auf die sekundäre Datennutzung können interessante Anreize bieten.
  • Die Unterstützung durch den Arbeitgeber ist vor allem für Forscher/innen mit einem hohen Maß an Offenheit und mit einem hohen Maß an Verträglichkeit ein wichtiger Anreiz für das Datenteilen.
  • Die Befunde zur sozialen Erwünschtheit stützen die Annahme früherer Studien, dass Publikationen wichtiger sind als der wissenschaftliche Austausch in Form von Datenteilen. Insofern sollte das Teilen von Forschungsdaten mehr formale Anerkennung erfahren und entsprechende karriereförderliche Anreize eingeführt werden.
  • Die Ergebnisse zu Machiavellismus einerseits und Geschlechtsunterschieden andererseits lassen zudem vermuten, dass es nicht nur um die Ausgestaltung bestimmter Konditionen geht, sondern auch um die faire und demokratische Nutzung der bereits vorhandenen Möglichkeiten (Anreize und Barrieren).

Die Studie entstand in Kooperation mit der ZBW – Leibniz-Informationszentrum Wirtschaft, dem DIW Berlin, dem Alexander-von-Humboldt-Institut für Internet und Gesellschaft (HIIG) und der VU University Amsterdam. Es handelt sich um eine Kooperationsarbeit im Rahmen des Leibniz-Forschungsverbundes Science 2.0.

Zum Artikel:
Linek, S. B., Fecher, B., Friesike, S. & Hebing, M. (2017). Data sharing as social dilemma: influence of the researcher’s personality. PLoS ONE 12(8): e0183216. https://doi.org/10.1371/journal.pone.0183216

[via RfII Info Ticker]

EDDI2017 in Lausanne: Beiträge bis 10. September einreichen

EDDI-Logo

Die Deadline wurde auf den 10. September 2017 verlängert. Jetzt noch Beiträge einreichen für die die EDDI17 die 9th Annual European DDI User Conference, die am 5. und 6. Dezember 2017 in Lausanne (Schweiz) stattfindet statt. Der Call for Papers  gibt eine große Freiheit bei der Themenwahl.

Einladung zur Vorstellung des Beteiligungsmodells für forschungsdaten.info

Logo forschungsdaten.info

Die Organisatoren der Informationsplattform forschungsdaten.info möchten Sie herzlich zu einem öffentlichen Webmeeting am Dienstag, 26. September 2017, um 10 Uhr einladen. In diesem Meeting wird das in den letzten Monaten mit einem kleinen Kreis von Interessenten ausgearbeitete Organisations- und Beteiligungsmodell für die Fortführung von forschungsdaten.info vorgestellt.

Treffpunkt: https://webconf.vc.dfn.de/fdinfo
Passwort: FDM

Um weitere Partner für die Verstetigung und Fortführung der FDM-Informationsplattform forschungsdaten.info zu gewinnen, gibt es regelmäßig (jeden 3. oder 4. Dienstag im Monat um 10 Uhr) die Möglichkeit per Webkonferenz ins Gespräch zu kommen. Alle FDM-interessierten Personen sind herzlich willkommen. Die weiteren Termine werden rechtzeitig über den Verteiler [forschungsdaten] versandt und auch über eventuelle Abweichungen informiert.

Neue Interessierten bitte die folgenden Punkte:

  • Auf der Redmine-Projektplattform der Universität Konstanz liegen unter dem Projektnamen fd-info alle relevanten Informationen und Dokumente, wie bspw. das Organisations- und Beteiligungsmodell zur Verstetigung von forschungsdaten.info. Zugang erhalten interessierte Personen durch eine formlose E-Mail an fdm.kim@uni-konstanz.de.
  • Einige werden aktiv mitarbeiten, andere werden lediglich hineinhören wollen. Beide Gruppen sind eingeladen.
  • Auch wer dieses Mal nicht teilnehmen kann, kann Feedback geben oder bei späteren Treffen einsteigen.
  • Vorher bitte ausprobieren, ob Browser und Audiogerät den Raum unterstützt (bzw. andersrum). Bei Fragen kann man sich gern auch an Jessica Rex oder Frank Tristram wenden (Linuxnutzer bitte an Frank Tristram).

10 Tips For Clean Code

  1. You’re responsible for code quality.
  2. Use meaningful names.
  3. Write code that expresses intent.
  4. Code should speak for itself. Less comments = less maintenance.
  5. Leave the code better than you found it.
  6. Single-responsibility code. i.e function does 1 thing well. Less arguments = better function. classes: most methods use most of the class’ properties.
  7. Tests (TDD).
  8. Work on big picture skeleton, then fill in the details later (interface first, implementation later).
  9. Independent components that can be used in different places.
  10. Master your craft.

Link zum Video.

European Commission: Expert group on Turning FAIR data into reality

The European Commission has established an Expert group on Turning FAIR data into reality (E03464) which will run until Spring 2018. This Group is pleased to announce a public consultation to invite suggests and contributions on implementing the FAIR data principles.

The call for contributions is framed in terms of the five proposed report chapters, namely:

  • Concepts – why FAIR?
  • Research data culture
  • Making FAIR data real
  • Measuring change
  • Facilitating change

A description of the planned coverage of each section is given, together with some questions to guide contributions.

A GitHub repository has been established to enable the community to contribute suggestions and resources in the open. Please see the guidelines and examples on how to contribute.

We will also host two open community sessions to allow people to contribute ideas to the FAIR data expert group in real-time and in a moderated forum to allow discussion with the group. These will take place on Monday 3rd July from 14:00-17:00 CEST and Wednesday 26th July from 10:00-13:00 CEST. Further details on how to join will be circulated nearer the time.

The consultation is open between 12 June 2017 and 31 July 2017. Early input is encouraged to allow time for follow-up discussion.

(via [forschungsdaten])

Was sind Datenmangementpläne?

Das Online-Tutorial „Was sind Datenmanagementpläne?“ ist ab sofort auf der Webseite der Forschungsdatenmanagement-Initiative der Humboldt-Universität zu Berlin bzw. über doi:10.18450/dataman/91 frei verfügbar. Das Tutorial informiert rund um das Thema Datenmanagementpläne: Es definiert den Aufbau und Inhalt eines Datenmanagementplans, beschreibt dessen Notwendigkeit und Sinn und gibt einen Einblick über Anforderungen und Formalitäten.


Das Online-Tutorial wurde von der Forschungsdatenmanagement-Initiative der Humboldt-Universität zu Berlin erarbeitet. Es steht unter einer CC-BY Lizenz.

(via: [forschungsdaten])

Arbeiten am FDZ-DZHW

Das FDZ-DZHW sucht zum 1. September 2017

eine(n) wissenschaftliche(n) Mitarbeiter(in) für das Projekt „Maßnahmen zur Effizienzsteigerung des FDZ-DZHW in den Bereichen Datenaufnahme, Nutzeranfragen und Kommunikation“.

Aufgabenbeschreibung

  • Weiterentwicklung des FDZ-eigenen Metadatenmanagementsystem mit dem Fokus auf eine effiziente Datenaufnahme innerhalb des DZHW
  • Optimierung der Prozesse zur Aufnahme externer Daten
  • Erarbeitung von Vorlagen für Skalenhandbücher
  • Öffentlichkeitsarbeit

Weitere Infomationen finden sich hier

EDDI2017 in Lausanne: Beiträge bis 4. September einreichen

EDDI-Logo

Am 5. und 6. Dezember 2017 findet in Lausanne mit der EDDI17 die 9th Annual European DDI User Conference statt. Der Call for Papers wurde gerade veröffentlicht. Er gibt eine große Freiheit bei der Themenwahl und hat sich im Vergleich zum Vorjahr kaum geändert.