Masse statt Klasse? – Entstehungsprozesse, Qualitätsprobleme und Verwendungsmöglichkeiten von prozessgenerierten Daten im digitalen Zeitalter

Auch wenn prozessproduzierte Massendaten (sogenannte „Big Data“) etwa in Form von staatlichen Verwaltungsdaten eine mehr als zweihundertjährige Tradition haben, hat sich deren Verfügbarkeit in den letzten Jahrzehnten dramatisch gesteigert:

  1. Zum einen werden administrative Daten, die als Nebenprodukt von organisationalen und behördlichen Prozessen entstehen (z.B. Registerdaten, Kundendaten), nicht nur seit den 1970er Jahren digital gespeichert und verarbeitet, sondern werden seit Ende der 1990er Jahre etwa über Forschungsdatenzentren und den RatSWD zunehmend für wissenschaftliche Analysen zugänglich gemacht.
  2. Zum anderen entstehen als Nebenprodukt der digitalen Kommunikation im Web 2.0 neue Arten von Massendaten (z.B. Websites, Blogs, Social Media), die – anders als frühere prozessproduzierte Daten – von den Nutzern dieser Dienste unbewusst und/oder freiwillig generiert werden, bei denen sich die Geschwindigkeit der Datenproduktion stark erhöht hat und die Rechte an den Daten nicht mehr bei staatlichen Akteuren, sondern bei Firmen liegen oder uneindeutig sind.

Nicht nur die Forschungsdatenzentren, sondern auch historische Datenarchive und eine Vielzahl universitärer Projekte arbeiten daran beide Datensorten, also bisher unerschlossene alte Datensammlungen ebenso wie neue digitale Daten, zunehmend für die Forschung zugänglich zu machen. Damit erweitern sich Möglichkeiten für die Sozialwissenschaften, soziale Phänomene sowohl aus aktueller, als auch historischer Blickrichtung zu analysieren. Das gilt umso mehr, je stärker Datensätze miteinander verknüpft und digitale Massendaten in Kombination miteinander und mit forschungsinduzierten Daten einer Analyse zugänglich gemacht werden können.

Im methodologischen Umgang mit diesen Massendaten zeichnet sich ein erstaunlicher Gegensatz ab:

  1. Die empirische Sozialforschung fokussiert sich in ihren Analysen vorwiegend auf die klassischen administrativen Daten, und die Erkenntnis, dass diese Daten sozial konstruiert sind und damit eigene methodologischen Probleme mit sich bringen, die bei der Analyse reflektiert werden müssen. Diese Methodendebatte war bereits ein wesentliches Moment der Gründung der deutschsprachigen Soziologie und der quantitativen empirischen Sozialforschung, die in den 1970ern wiederbelebt wurde. Als Ergebnis dieser Debatte wurde das Konzept der „Datenkunde“ (als alternative zur „Fehlerkunde“ im Survey-Prozess) eingeführt, verbunden mit der Forderung, dass vor der Auswertung eines
    Datenbestands analysiert werden muss, wie die Datenproduktion durch organisationale Regeln, Alltagspraktiken der Datenproduzenten sowie Verhalten der Klienten überformt wird, um daraus die spezifischen Verzerrungen der Population bzw. Stichprobe sowie der Fehler in den Daten zu identifizieren. In den letzten zwei Jahrzehnten existiert vor allem im Kontext der Forschungsdatenzentren eine intensive Methodenforschung, die diese spezifische Verzerrungsprozesse und die sich daraus ergebenden methodologischen Probleme erkundet.
  2. Die internationale „Computational Social Science“ fokussiert in ihren Analysen vorwiegend auf die im Zuge der digitalen Kommunikation entstandenen neuen Sorten von Massendaten. In der Methodenforschung wendet sich die „Computational Social Science“ zunehmend auf neue Analysetechniken und Algorithmen zur Auswertung von Big Data zu. Auch hier zeichnet sich eine Methodendebatte an, die vornehmlich pragmatische Machbarkeitsprobleme ebenso wie die Strukturierung durch Technik thematisiert.

Diese beiden Forschungsstränge sind bislang kaum verbunden und weisen wechselseitige blinde Flecken auf. Durch einen produktiven Austausch könnten beide Forschungsstränge wechselseitig profitieren: Beispielsweise erscheint eine Debatte über die Potentiale neuer Auswertungstechniken aus den Computational Social Science im Bereich der historischen Massendaten vielversprechend. Anderseits erscheint eine kritische Auseinandersetzung mit der Fehlerhaftigkeit und internen Verzerrung von jenen Daten, die in digitalen Prozessen generiert wurden, notwendig.

Dieser Workshop will einen Beitrag zu einem solchen Austausch leisten und hat das Ziel, die Entstehungsbedingungen analoger und digitaler prozess-generierter Daten zu reflektieren und ihre damit verbundenen Verwendungsschwierigkeiten zu diskutieren. Hierzu gehört auch die Frage, ob und wie das Konzept der „Datenkunde“ erweitert oder aktualisiert werden muss. Damit rücken neben messbezogenen Eigenschaften gesellschaftliche, politische und wirtschaftliche Bedingungen in die Betrachtung, die eine Interpretation von Analyseergebnissen erst sinnvoll machen. Der Workshop will diese methodologischen wie theoriebezogenen Fragen auch mit der Absicht stellen, Möglichkeiten aufzuzeigen, mit denen die Aussagekraft prozessgenerierter Daten in sozialwissenschaftlichen Untersuchungen gesteigert werden kann.

Wenn Sie an dem Workshop mit einen Vortrag/einer Präsentation teilnehmen wollen, senden Sie uns bitte das Thema bis zum 30.10.2017 per -Mail an nina.baur@tu-berlin.de zu.

Big Data: DataFest Germany zum dritten

Nach den Erfolgen der ersten beiden DataFeste (2015 und 2016) ziehen die Big Data-affinen Studenten zum 3. DataFest Germany vom 7. bis 9. April 2017 wieder nach Mannheim.

Hier die Beschreibung der Veranstalter:

Das DataFest ist Wettbewerb und interdisziplinäreres Team Event zugleich, bei dem ihr die einzigartige Möglichkeit habt, große Datenmengen zu bearbeiten und nach euren Ideen auszuwerten. Außerdem könnt ihr ganz ungezwungen mit führenden Köpfen der Statistik sowie Unternehmen in Kontakt treten.

DataFest 2017 ist bereits das dritte DataFest in Deutschland und wird von einem Konsortium bestehend aus dem Lehrstuhl für Statistik und sozialwissenschaftliche Methodenlehre an der Universität Mannheim, dem Institut für Statistik der LMU München und der P3 Group organisiert.

Unter dem Dach der American Statistical Association finden viele weitere DataFeste in den USA statt. In den vergangenen Jahren haben wir und unsere amerikanischen Partneruniversitäten bereits sehr gute Erfahrungen gemacht.

WAS WIRD DIE AUFGABE SEIN?

Die bereitgestellten Daten sollen eine Überraschung sein und werden erst beim DataFest bekannt gegeben. Soviel sei aber verraten: Geplant ist ein riesiger Datensatz von einem unserer Partner aus der Wirtschaft. In der Vergangenheit wurden beispielsweise Daten vom Los Angeles Police Department daraufhin ausgewertet, wie sich Kriminalität reduzieren lässt. Oder die Daten einer Dating-Website wurden daraufhin untersucht, nach welchen Merkmalen Leute sich ihre künftigen Dates aussuchen. Während der Arbeit kannst du kommen und gehen wie du möchtest. Allerdings ist es nicht erlaubt außerhalb des Veranstaltungsraums am Projekt zu arbeiten. Mindestens zwei Teammitglieder müssen zu Veranstaltungsbeginn anwesend sein.

Präsentiert die Ergebnisse in einer sehr kurzen Präsentation einer bunt gemischten Jury, die sich aus Experten aus verschiedenen Berufsfeldern zusammensetzt. Gewinnen kann man in den Kategorien:

  • Best Insight
  • Best Visualization
  • Best Use of Outside Data

Weitere Details zu Anreise, Anmeldung, Unterkunft und ähnlichem gibt es unter:

http://datafest.de/

Big Data: 2. DataFest Germany an der LMU München

Nach dem Erfolg der ersten Auflage des DataFest Germany an der Uni Mannheim im letzten Jahr ist der Datenzirkus weitergezogen und macht in diesem Jahr Datafest_smallan der LMU in München Station. Vom 1.-3. April werden wieder Teams von Studierenden aus ganz Deutschland um die Wette rechnen und ihre Fähigkeiten im Umgang mit komplexen Datenstrukturen an einem zur Verfügung gestellten massiven Datensatz testen und weiterentwickeln. Dabei können sie Preise in den Kategorien „Beste Erkenntnis“, „Beste Visualisierung“ und „Beste Vewendung externer Datenquellen“ gewinnen. Details gibt es unter: http://datafest.de/

Big Data: Erstes DataFest Germany in Mannheim

Datafest_smallVom 20. bis 22. März 2015 fand an der Uni Mannheim das erste DataFest in Deutschland statt. Ca. 90 Studenten von verschiedenen Unis aus dem ganzen Bundesgebiet haben drei Tage lang mehrere Gigabytes an Handy-App-Daten mit Stata und R zerlegt. Ziel war es kurze Präsentationen zu erstellen mit denen sie Preise für die beste Erkenntnis, die beste Visualisierung und die beste Verwendung von zusätzlichen Daten gewinnen konnten.

Teilnehmer bei ersten DataFest Germany
Dieser Marathon ging nicht nur für die Studis sondern auch für das durchschnittliche Notebook an die Belastungs- bzw. Arbeitsspeichergrenze.