Datenmanagement in der Forschung
Die Laborautomatisierung wie die steigende Rechnerleistung erlauben die Durchführung einer zunehmenden Zahl von Experimenten und Simulationen, wobei durch hohe Auflösungen, neue analytische Methoden und Bildgebungsverfahren eine große Menge an Daten erzeugt wird. Um all diese Daten nachvollziehbar, analysierbar und nachnutzbar zu machen, müssen sie direkt bei der Entstehung strukturiert erfasst und dokumentiert werden. Dies erfordert die Entwicklung und Verwendung standardisierter Terminologien, die Standardisierung von Datenformaten sowie die Entwicklung von Workflows zur Automatisierung von Datenerfassung, Datenanalyse und Publikation von Datensätzen.
- Standardisierung von Terminologien und Datenformaten
-
Mitglieder der Universität Stuttgart sind im Rahmen der Beteiligung an NFDI4Ing, MatWerk und MaRDI an der Entwicklung von Ontologien zur Beschreibung ingenieurwissenschaftlicher Forschungsprozesse (m4i), verschiedener Arten von Mikrostrukturen und Verbundwerkstoffen und mathematischer Modelle maßgeblich beteiligt. Im Rahmen von NFDI4Chem und NFDI4Cat werden Ontologien und standardisierte Datenformate im Bereich Chemie und Katalysewissenschaft entwickelt.
- Integration des Datenmanagements in den Forschungsprozess
-
Um die Dokumentation von Forschungsdaten mit strukturierten Metadaten in den Forschungsprozess zu integrieren, entwickeln Data Stewards und Research Software Engineers der Exzellenzcluster SimTech und IntCDC, der Sonderforschungsbereiche 1313 und 1333 Werkzeuge und Standards zur Erfassung, Analyse und Veröffentlichung von Daten, die durch Experimente oder Simulationen erzeugt werden.
Das RDM-Team bei SimTech hat es sich beispielsweise zur Aufgabe gemacht, eine unterstützende Umgebung zu schaffen, die ein effizientes, effektives und nachhaltiges Datenmanagement für Forschungsdaten fördert, die in der Simulationsforschung und in Projekten entstehen. Verschiedene Tools dienen der Verbesserung und Optimierung der Prozesse im Lebenszyklus von Forschungsdaten. Unser Ziel ist es, Forschern die notwendigen Ressourcen zur Verfügung zu stellen, um ihre Daten einfach zu verwalten und sicherzustellen, dass sie sicher und in Übereinstimmung mit den einschlägigen Vorschriften gespeichert werden.
Lehre und Training
Forschungsdaten- und -codemanagement für reproduzierbare Forschung ist integraler Bestandteil der Lehre und Weiterbildung an der Universität. Lehrveranstaltungen zu den Themen Datenmanagement, Open Science und deren Umsetzung im Forschungsalltag führen schon Studierende in das Thema Forschungsdatenmanagement ein. Hands-On-Workshops, Vorträge und Kurse unterstützen Verbundprojekte, Arbeitsgruppen und den wissenschaftlichen Nachwuchs bei der Integration des Forschungsdatenmanagements in den Forschungsalltag.
Das Seminar der Special Interest Group Data Infrastructure bietet ein Forum für Arbeitsgruppen innerhalb der Universität, die daran interessiert sind, eine Forschungsdatenmanagement-Infrastruktur für die Gruppe oder das Institut aufzubauen. Dafür werden interne und externe Experten eingeladen, um sich über Erfahrungen mit konkreten FDM-Infrastrukutren auszutauschen.
FDM Tools und Services
DaRUS
EasyDataverse
Python-Bibliothek als Schnittstelle zu Dataverse-Installationen wie dem Datenrepositorium DaRUS.
Infrastruktur
Für die Erfassung, Analyse und Publikation von Daten entwickeln wir jeweils domänenspezifische Werkzeuge, Workflows und Formate.
Das Datenrepositorium DaRUS wird von den Mitgliedern und Partnern der Universität Stuttgart rege zum Teilen und Veröffentlichen qualitätsgesicherter Daten genutzt. Verschiedene Workflows, Tools und Schnittstellen erleichtern die Metadatierung von Daten im Forschungsprozess.
Storage-Services des TIK stellen den Instituten und Forschungsverbünden für die Speicherung von aktiv bearbeiteten Forschungsdaten aktuell Netzlaufwerke zur Verfügung, bei denen die Zugriffssteuerung für verschiedene Benutzergruppen feingranular geregelt werden kann. Mit bwSFS2 ist ein System in Planung, das Forschungsdatenmanagement direkt mit der Speicherung aktuell bearbeiteter Daten integriert.