Forschungsdatenmanagement
Digitaler Datenschatz bringt Forschung voran
Numerische Messdaten, Bilder, Grafiken, Protokolle und Computerprogramme – die Wissenschaftler:innen des Exzellenzclusters ctd.qmat erzeugen große Mengen an Forschungsdaten. Ein wertvolles Gut! Mit einem leistungsfähigen und systemoffenen Datenmanagement lässt sich dieser Datenschatz nachhaltig digital nutzbar sowie der Wissenschaftscommunity langfristig zugänglich machen. Dazu schaffen wir gemeinsam mit dem Rechenzentrum der Universität Würzburg (RZUW) ein System zum Management unserer Forschungsdaten, das den FAIR-Prinzipien folgt und somit grundsätzlichen Anforderungen an die moderne Datenhaltung in den Wissenschaften genügt. FAIR steht für Findable, Accessible, Interoperable, and Reusable data, also auffindbare, zugängliche, interoperable und wiederverwendbare Daten).
Verteilt und gemeinschaftlich
Wir möchten die Idee eines „kollaborativen Datenmanagements“ zum Leben erwecken. Das bedeutet den Aufbau einer integrierten Plattform, die es den Forscher:innen des Exzellenzclusters ermöglicht, Forschungsdaten miteinander zu teilen, aufzubewahren, zu zitieren, zu analysieren sowie neue Erkenntnisse in den gespeicherten Daten zu entdecken. Dabei achten wir darauf, verschiedene Ansätze benutzerfreundlich einzubinden, um hardware- und herstellerunabhängig eine jahrzehntelange Zugänglichkeit zu sichern.
Ressourcen nutzen
Hierfür greifen wir auf vorhandene Ressourcen wie zum Beispiel Open-Source-Lösungen zurück – also Software, die einem transparenten, offenen und für jedermann zugänglichen Entwicklungsmodell folgt und somit auch angepasst und weiterentwickelt werden kann. Zudem vereinen wir etablierte Webdienste sowie aktuelle Speichertechnologien zu einem beim RZUW betriebenen System. Die genutzten Webdienste laufen im Hintergrund, um den Forscher:innen eine bequeme, cloudartige Plattform für datengetriebene Prozesse – ein modernes „Data Mesh“ – aus einem Guss zu bieten.
Moderne Infrastruktur
Um die Infrastruktur aufzubauen, setzen wir auf eine Kombination aus Kubernetes mit einem Object Store – eine Kombination, wie sie in den Rechenzentren von Amazon, Google und Microsoft zu finden ist.
Das Open-Source-Programm Kubernetes sowie das Kubernetes-Cluster kommen zum Einsatz, um die auf Servern in „Containern“ laufenden Dienste zu verbinden, zu verwalten und zu steuern. Kubernetes prüft ebenfalls die Integrität der Ressourcen. Kubernetes ist anbieter- und hardwareunabhängig sowie flexibel erweiterbar.
Ein Object Store von Ceph sorgt mit einer Kapazität von 1.5 Petabyte (PB) für genug Speicher. Die moderne, objekt- bzw. paketbasierte Speicherlösung (Object Storage) nach dem AWS (Amazon Web Service) S3-(Simple Storage Service-)Standardzugangsprotokoll unterstützt das gesamte Verarbeitungskonzept. Vorteile sind unter anderem sichere redundante Speicherung, schneller Zugriff auf Grundlage des im World Wide Web (WWW) gängigen Hypertext-Übertragungsprotokolls (Hypertext Transfer Protocol HTTP bzw. HTTPS) sowie hohe Ausbau- bzw. Skalierbarkeit.
Etablierte Webdienste
Auf dieser Infrastruktur bauen nun die von uns genutzten Webdienste auf:
Der Cloud-Service JupyterHub und das assoziierte Projekt Binderhub (ebenfalls Open Source) dienen dazu, komplette Forschungsumgebungen inklusive genutzter Software und interaktiver Elemente reproduzierbar zu speichern. Per Link kann der Speicherort für andere Wissenschaftler:innen bzw. Mitarbeiter:innen freigegeben werden. Die in der Cloud bereitgestellte Computerumgebung lässt sich dann direkt im Browser ausführen. Es muss keine Software installiert werden, was kollaboratives Arbeiten erleichtert.
Bereits lange in Verwendung ist GitLab, das den Gruppen von ctd.qmat eine Plattform zur kollaborativen Softwareentwicklung, Workflow-Organisation und zum Ausführen automatischer Tests zur Verfügung stellt.
Das NOMAD Oasis ist eine von ctd.qmat betriebene Instanz der Open-Source-Software Novel Material Discovery (NOMAD) Laboratory, entwickelt vom Konsortium FAIRmat des Vereins Nationale Forshcungsdateninfrastruktur (NFDI) e.V.. Sie kombiniert ein elektronisches Laborbuch, Analysewerkzeuge powered by JupyterHub und ein Datenrepositorium mit reichhaltigen, durchsuchbaren Metadaten für masterialwissenschaftliche Daten.
Das Elektronische Laborbuch eLabFTW ist eine weitverbreitete Open-Source-Lösung zum digitalen Führen von Laborbüchern, Speichern und Zeitmarkierung (Timestamping) von Messresultaten.
Overleaf steht ebenfalls zur Verfügung. Der kollaborative Online-LaTeX-Editor vereinfacht das gemeinschaftliche Erstellen, Bearbeiten und Veröffentlichen wissenschaftlicher Dokumente.
Des Weiteren steht das Hochleistungsrechnersystems (High Performance Computing, HPC) „Julia 2" der Julius-Maximilians-Universität Würzburg (JMU) allen ctd.qmat-Mitgliedern offen.
Weiterführende Informationen zum Forschungsdatenmanagement
Kontakt/Hilfe
Das Datenmanagement-Team ist erreichbar unter:
datamanagement.ct.qmat@listserv.dfn.de
Das Team hilft Ihnen gern bei Herausforderungen im Datenmanagement und ist offen für Vorschläge zur Erweiterung der Infrastruktur. Unterstützung erhalten Sie ebenfalls auf dem Discord-Server des Würzburger Chapters von de-RSE (RSE = Research Software Engineers, Softwareentwickler in der Forschung).