Knut Wenzig – Survey Data Blog

Recommendations on Data Versioning

We often say that “A is a version of B” but do not explain what we mean by “version”. We imply that B was somehow derived from A or that they share a common ancestor. But how is B related to A? How do they differ? Do they differ in content or format? What is the significance of this difference? While this sounds like a question about the provenance of a dataset, it goes beyond that and asks questions about the identity of a digital object and the intellectual and creative work it embodies.

The project “PID Reference Model for the Versioning of Research Data” at the Chair of Information Management at the Berlin School of Library and Information Science (IBI) at Humboldt Universität zu Berlin focused on the versioning of research data publications in the context of ongoing discussions about the reform of research evaluation from an infrastructural perspective. As an output of the project, the team led by visiting fellow Jens Klump developed a set of guidelines on how to version research data.

Klump, J., Pampel, H., Rothfritz, L., & Strecker, D. (2024). Recommendations on Data Versioning. Berlin, Germany: Humboldt-Universität zu Berlin. https://doi.org/10.5281/zenodo.13743876

This recommendation outlines key aspects of research data versioning for scientists and information management professionals at research-performing organisations. It is based on prior work by the Research Data Alliance Data Versioning Working Group.

Here is a presentation by the team lead in German: https://www.ibi.hu-berlin.de/de/von-uns/bbk/abstracts/ss_24/klump_versionen

Women in Data Science: Munich Conference, October 10, 2024

On October 10, 2024 there will be some fantastic speakers in the heart of Munich.
WiDS Munich is independently organized by LMU, TUM, MDSI, BERD@NFDI, TUM Think Tank and Sixt SE to be part of the mission to increase participation of women in data science and to feature outstanding women doing outstanding work.Women in Data Science (WiDS) Munich is a regional one-day event organized by the Ludwig-Maximilians-University Munich (LMU), the Technical University Munich (TUM) and Sixt, associated with the WiDS worldwide non-profit organization.

WiDS worldwide holds an annual conference at Stanford University and an estimated 150+ locations worldwide. This conference provides an opportunity for folks in the Munich community to learn about and celebrate the accomplishments of women applying data science in a variety of domains.

All genders are invited to attend WiDS regional events, which features outstanding women doing outstanding work.

https://www.widsmunich.de/

#EDDI2025 in Chur

Der Call for Papers für die 16. Europäische DDI Users Conference (#EDDI2025) in Chur (Schweiz) wurde veröffentlicht. Beiträge können bis 2. September eingereicht werden. Die Konferenz findet am 3. und 4. Dezember statt, an den Tagen davor und danach gibt es Side Meetings, Workshops und Tutorials.

Abtracts können hier eingereicht werden: https://events.geant.org/event/1637/abstracts/

Bericht von SLOW 2024 in Bamberg

Am LIfBi in Bamberg wurde der diesjährige SLOW ausgerichtet. Nachdem in bewährter Form die Teilnehmenden sich ein Programm erarbeitet haben. Wurden in über 30 selbst organisierten Sessions die verschiedensten Themen diskutiert:

In der Session „Dokumentation“ wurden die notwendigen und möglichen Aspekte der Dokumentation intensiv besprochen. Diskutiert wurde, welche Abdeckung und Tiefe der Dokumentation angestrebt werden sollten und wie diese Dokumentation effektiv an die Datennutzenden weitergegeben werden kann. Besondere Herausforderungen wurden bei der internen Dokumentation identifiziert, wobei die übergeordnete Frage war, was überhaupt dokumentiert werden muss und kann.

Im Bereich des Projektmanagements stellte sich heraus, dass es sich bei laufenden Studien oft um „Standardprojekte“ handelt. Daher wurde die Methodik des agilen Projektmanagements, wie Scrum, als weniger passend empfunden. Stattdessen wurden strukturierte Zeitpläne als geeigneter angesehen. Bewährte Methoden und Strategien in Projekten umfassen die Verwendung eines Backlogs für Querschnittsaufgaben, das Setzen von Meilensteinen zur klaren Definition abgeschlossener Schritte und regelmäßige Retrospektiven zur Reflexion der Zusammenarbeit. Forschung sollte als Bestandteil des Projekts gesehen werden, um Fortschritte und organisatorische Hürden sichtbar zu machen. Eine klare Definition von Prozessschritten und Verantwortlichkeiten wurde als wesentlich erachtet, um Konflikte zu vermeiden.

Die Session „KI – Wozu, warum?“ widmete sich der kritischen Diskussion des Einsatzes von Künstlicher Intelligenz in der Datenaufbereitung. Es wurde festgestellt, dass Sprachmodelle erfolgreich in Bereichen wie Programmierunterstützung und Übersetzung eingesetzt werden können. Die Diskussionsgruppe kam jedoch zu dem Schluss, dass KI-Tools die Arbeit von Datenaufbereitungs-Spezialisten nicht ersetzen können, sondern eher als zusätzliche Werkzeuge dienen sollten.

Aktuelle Herausforderungen bei der Verwendung von Prepaid-Incentives wurden ebenfalls thematisiert. Diese umfassen die Skandalisierung durch die Presse sowie Versand- und Abrechnungsprobleme. Dennoch bringen Incentives stabile Effekte. Vorschläge zur Verbesserung umfassen die gute Kommunikation der wissenschaftlichen Ergebnisse zu Incentives, die Einrichtung einer Hotline für Support und Feldtests sowie Experimente zur Aktualisierung historischer Befunde.

Ein weiterer Diskussionspunkt war die Erstellung eines Stellenplans für das GGP, insbesondere im Hinblick auf die Rolle des Data Stewards. Mögliche Aufgabenbereiche umfassen Projektmanagement, Feldarbeit, Datenverarbeitung, Daten-Dokumentation und IT-Support. Die Diskussion umfasste auch die Stellenplanung an großen Instituten und das Tool der LIfBi-Erhebungskoordination.

Der Anspruch der Longitudinalität in Studien kann dazu führen, dass diese den Anschluss verlieren. Größere Studien neigen dazu, aufgebläht zu werden, was den Überblick erschwert. Entscheidungsgrundlagen für die Evaluierung von Items und die Beteiligung der Community an den Studien wurden diskutiert. Hierbei wurde die Möglichkeit einer kritischen Überprüfung bestehender Programme durch die Community hervorgehoben.

Eine Handreichung zur Plausibilisierung und Datenprüfung, die aus einer Neigungsgruppe des SLOW 2018 hervorgegangen ist, wurde vorgestellt.

Die Vorstellung der Nationalen Forschungsdateninfrastruktur (NFDI), einschließlich BERD@NFDI und KonsortSWD, beinhaltete Diskussionen über die Nachnutzung von NFDI-Systemen und die damit verbundenen Herausforderungen bei der Anpassung bestehender Systeme. Es wurden Fördermöglichkeiten wie Network Development Grants und NFDI4Datascience Speedboat Projects erwähnt.

Unterschiede im Antwortverhalten bei verschiedenen Befragungsmodi (CAPI, CAWI, CATI) wurden ebenfalls analysiert. Faktoren wie die Darstellungsform der Fragen, soziale Erwünschtheit und die Befragungsdauer spielen dabei eine Rolle.

Die geringe Fallzahl von „divers“-Angaben beim Geschlecht stellt eine besondere Herausforderung dar, da die Anonymität der Befragten gefährdet ist. Verschiedene mögliche Vorgehensweisen zur Wahrung der Anonymität wurden diskutiert, wobei keine ideale Lösung gefunden wurde.

Die Notwendigkeit einer Harmonisierung der Anonymisierungspraktiken in Forschungsdatenzentren wurde betont. Eine ganzheitliche Betrachtung der Anonymisierung, einschließlich Rechtsgrundlagen und Angriffsszenarien, soll vorangetrieben werden.

Metadaten werden zunehmend strukturiert erfasst und nachgenutzt. Kooperationen zur stärkeren Standardisierung und Nachnutzung solcher Daten wurden im Abschlussplenum verabredet.

Es wurden verschiedene Ansätze zum Monitoring der Feldentwicklung diskutiert. Neben mathematischen Modellen ist oft eine intuitive Analyse der Teilnahmeentwicklung üblich.

Strategien zur Beteiligung der wissenschaftlichen Community an den Studien wurden ebenfalls erörtert. Dies umfasst Call for Questions, Nutzendenbefragungen und Community Workshops.

Die User Experience (UX) gewinnt bei CAWI an Bedeutung. Aspekte wie responsive Programmierung, Barrierefreiheit und die Vermeidung von Medienbrüchen sind wichtig, um die Panel-Abnutzung zu minimieren.

Die zunehmende Komplexität der Erhebungen erfordert Gegenmaßnahmen. Dazu gehören die Reduktion der Modianzahl und die Anpassung der Kommunikation bei der Erhebungsvorbereitung.

Es wurde die Bedeutung der Prinzipien guter wissenschaftlicher Praxis betont. Die Anforderungen an den Studien- und Datenmanagementprozess sollten bereits in der Erhebungsvorbereitung berücksichtigt werden, um die Dokumentation der Datenerhebung zu verbessern.

Dieser Bericht basiert auf den zum Teil ausführlicheren Stichworten der Teilnehmenden, die zumindest für einige Zeit noch unter https://t1p.de/slow2024 erreichbar sind. Die Zusammenfassung erledigte ChatGPT-4.

Treffens des Hands-on-Datenpersonals an den Leibniz-Einrichtungen

Der Sprecher:innenkreis des AK Forschungsdaten lädt herzlich zum virtuellen Treffen aller an Einrichtungen der Leibniz-Gemeinschaft aktiv an der Umsetzung des Forschungsdatenmanagement beteiligten Personen am 15. Mai 2024 ein.

In der Annahme, dass sich die technischen, administrativen als auch motivationsbedingten Herausforderungen in der alltäglichen Arbeit im Bereich FDM ähneln, möchte der AK den unmittelbaren Austausch von Erfahrungen und Best Practices aus dem Arbeitsalltag des beschriebenen FDM-Personals mit Wissenschaftler:innen und ihren Daten innerhalb der Leibniz-Gemeinschaft unterstützen.

Um bei der Planung die Bedarfe, Interessen und Probleme der Kolleg:innen zu berücksichtigen, sind alle herzlichen eingeladen, im Vorfeld Themen zu benennen, zu denen Austausch gewünscht wird. Unter https://umfrage.leibniz-gemeinschaft.de/index.php/634233?lang=de können Interessierte sowohl die Themen benennen als auch einen Hinweis zu ihren Sprachkompetenzen hinterlassen. Um für alle zugänglich zu sein, planen wir die Veranstaltung ggf. zweisprachig oder durchgängig auf Englisch.

Interessierte werden um Rückmeldung bis zum 1. Mai 2024 gebeten. Anschließend wird das Programm fertig gestellt und mit dem Programmversand die Möglichkeit zur Anmeldung eröffnet.

Der Sprecher:innenkreis freut sich auf den Austausch und auf die Gelegenheit auch jene Kolleg:innen kennenzulernen, die nicht im AK aktiv sind.

SLOW 2024 vom 15. bis 17. April in Bamberg

Der nächste Survey-Lifecycle-Operators-Workshop (SLOW) findet vom 15. bis 17. April 2024 in Bamberg am Leibniz-Institut für Bildungsverläufe (LIfBi) statt. Schäufele, wir kommen!

Buch über Datenharmonisierung in den Sozialwissenschaften

Soeben ist mit »Survey Data Harmonization in the Social Sciences« ein Band erschienen, der ein Thema behandelt, das auf den SLO-Workshops regelmäßig adressiert wird. Vielleicht mag jemand eine Rezension schreiben?

Survey Data Harmonization in the Social Sciences
Editor(s):Irina Tomescu-Dubrow, Christof Wolf, Kazimierz M. Slomczynski, J. Craig Jenkins
First published: 10 November 2023
Print ISBN:9781119712176 |Online ISBN:9781119712206

Weiterbildungsangebot Data Train

Um dem starken Bedarf – in Wissenschaft, Wirtschaft und Gesellschaft – an Kompetenzen in Forschungsdatenmanagement und Data Science nachzukommen, bietet die U Bremen Research Alliance (UBRA) das zentrale Trainingsprogramm Data Train als Zusatzangebot für Promovierende aller Fachrichtungen an. Data Train ist für Teilnehmende kostenlos und ist seit November 2023 in DataNord integriert, dem interdisziplinären Datenkompetenzzentrum für die Region Bremen. Der weitere Ausbau des Programms wird gefördert vom Bundesministerium für Bildung und Forschung und finanziert durch die Europäische Union – NextGenerationEU.

Von Januar bis Mai 2024 wird im Data Train Starter Tracks im Rahmen einer englischsprachigen Vorlesungsreihe allgemeines und vertieftes Wissen zu verschiedenen Themen der Datenkompetenz, des Forschungsdatenmanagements und der Datenwissenschaft vermittelt. Das Besondere dieses Tracks ist, dass er aufgrund seines hybriden Formats, Promovierende und Personen aller Karrierestufen sowie Studierenden und wissenschaftsunterstützendem Personal offensteht, die in Forschungsdatenmanagement und Datenwissenschaften einsteigen möchten. Auch Personen außerhalb der Mitgliedseinrichtungen der U Bremen Research Alliance und ebenso interessierte Akteure aus Organisationen in Wirtschaft und Gesellschaft können sich ab sofort anmelden.

Wir laden Sie herzlich ein am 17. Januar 2024 von 10 Uhr bis 12:30 Uhr mit uns zusammen den Startschuss des Data Train Programms im Fraunhofer Institut für Fertigungstechnik und angewandte Materialforschung (IFAM) zu zelebrieren. Im Rahmen dieser Veranstaltung informieren wir über das Data Train Programm, seinen Umfang, sein Konzept und seine Anbindung an die bundesweite Initiative „Nationale Forschungsdateninfrastruktur (NFDI)“. Zudem wird das Bremer Datenkompetenzzentrum Data Nord vorgestellt und Moritz Stefaner, Experte für Datenvisualisierung, präsentiert eine Data Story zu „Beautiful Insights – The art and science of data visualisation“. Raum für Austausch und Fragen zu Data Train bietet das anschließende Get-together inkl. Getränken und kleinen Köstlichkeiten. Die Veranstaltung findet ebenfalls hybrid statt, d. h. eine Teilnahme ist sowohl vor Ort, als auch online möglich. Bitte melden Sie sich an.

Weitere Informationen zu Kursen und Registrierungen finden Sie in der Anlage sowie auf folgender Internetseite: https://www.bremen-research.de/data-train

Anmeldung zur EDDI2023 nun möglich

Die Anmeldung zur EDDI 2023 in Ljubljana ist nun möglich: https://events.geant.org/event/1457/page/11-registration.

Free HPI-online course: Knowledge Graphs – Foundations and Applications

Despite the fact that it affects our lives on a daily basis, most of us are unfamiliar with the concept of a knowledge graph. When we ask Alexa about tomorrow’s weather or use Google to look up the latest news on climate change, knowledge graphs serve as the foundation of today’s cutting-edge information systems. In addition, knowledge graphs have the potential to elucidate, assess, and substantiate information produced by Deep Learning models, such as Chat-GPT and other large language models. Knowledge graphs have a wide range of applications, including improving search results, answering questions, providing recommendations, and developing explainable AI systems. In essence, the purpose of this course is to provide a comprehensive overview of knowledge graphs, their underlying technologies, and their significance in today’s digital world.

October 11, 2023 – November 21, 2023
Language: English
More information: https://open.hpi.de/courses/knowledgegraphs2023