heiDATA Archivierungspolicy
heiDATA ist das Forschungsdatenrepositorium der Universität Heidelberg. Als Publikationsplattform ist es die Aufgabe von heiDATA Forschungsdaten dauerhaft und nachhaltig über lange Zeiträume verfügbar zu halten. Hierfür wird Datenautor:innen vertraglich eine Haltedauer für ihre Daten von 10 Jahren zugesichert. Der Anspruch des Repositoriums geht jedoch über diesen Zeitraum hinaus und zielt auf eine unbefristete Bereitstellung der Daten ab.
Um dieses Ziel zu erreichen, verfolgt heiDATA eine zukunftsgerichtete Langzeitarchivierungsstrategie, die eine systematische Datenkuration mit einer verlässlichen technischen Infrastruktur kombiniert.
Datenkuration
Jede Datenveröffentlichung auf heiDATA durchläuft einen Kurationsprozess, der darauf abzielt, die Datenintegrität und -authentizität zu gewährleisten, die Dokumentation und Metadaten zu verbessern sowie die Datensätze so gut wie möglich für die Langzeitarchivierung vorzubereiten. Um diese Ziele zu erreichen, werden sämtliche Publikationsprozesse durch Datenkurator:innen der Research Data Unit begleitet.
Vor dem Ingest von Dateien in das Repository prüft der/die Kurator:in Dateiformate im Hinblick auf ihre langfristige Archivierbarkeit. Für heiDATA werden offene, nicht-proprietäre und gut dokumentierte Formate bevorzugt. Wenn die verwendeten Formate propritär und nicht offen sind, wird geprüft, ob die Dateien in ein Format konvertiert werden können, ohne dass relevante Informationen oder die Nutzbarkeit für die Community verloren gehen. Ist eine Konvertierung in ein solches Format nicht möglich, werden auch andere Formate akzeptiert. In diesen Fällen wird versucht, die Dokumentation des Dateiformats, sofern eine solche verfügbar ist, in einer internen Wissensbasis zu hinterlegen, um eine Nachnutzung der Daten auch nach Auslaufen des Formats zumindest prinzipiell zu ermöglichen. Des Weiteren werden, soweit dies für die jeweiligen Formate möglich ist, Formaterkennungen und Formatvalidierungen durchgeführt. Die Formaterkennung erfolgt mit FIDO und DROID. Die Validierung erfolgt über JHOVE, veraPDF und ExifTool. Darüber hinaus wird die Datenintegrität durch die Funktionalitäten der für heiDATA eingesetzten Dataverse-Software unterstützt, die Dateiprüfsummen auf Bitebene (MD5) sowie bei Tabellendaten auf Variablenebene (UNF) erstellt, so dass Kurator:innen, Autor:innen und Dritte die Integrität der Dateien überprüfen können. Bei veröffentlichten Datensätzen macht ein transparentes Versionierungssystem Änderungen nachvollziehbar.
Eine weitere Aufgabe der Kurator:innen ist die Verbesserung der Dokumentation und der Metadaten in Abstimmung mit den Autor:innen. Dieser Schritt ist in den Begutachtungsprozess für jede Datenpublikation integriert. Eine zusätzliche Begutachtung kann optional durch Herausgeber:innen und Gutachter:innen von Fachzeitschriften erfolgen. Über die Private URL-Funktion von heiDATA können diese vor der Veröffentlichung Zugang zu den Daten erhalten.
heiDATA orientiert sich an der Struktur des OAIS-Referenzmodells (Open Archival Information System) für digitale Langzeitarchivierung. Der moderierte Publikationsprozess garantiert, dass die in heiDATA eingespeisten Daten, die sogenannten Submission Information Packages (SIPs), bereits bestmöglich für die Langzeitarchivierung vorbereitet sind. Nachdem die Autor:innen Daten und Metadaten zur Begutachtung eingereicht haben, werden diese von den Mitarbeiterinnen und Mitarbeitern geprüft und in Absprache mit den Datenlieferanten optimiert. So entsteht das endgültige Archival Information Package (AIP), das im Falle von heiDATA identisch ist mit den Dissemination Information Packages (DIPs), die von Nutzer:innen heruntergeladen werden können.
Technische Infrastruktur
Die derzeitige technische Infrastruktur für heiDATA ist folgendermaßen aufgebaut: Das Repositorium nutzt eine dedizierte und skalierbare virtuelle Infrastruktur der universitätseigenen Private-Cloud-Infrastruktur heiCLOUD. Als Speicher-Backend werden zwei unabhängige Systeme genutzt, die die Hochverfügbarkeit des Dienstes garantieren. Die Daten werden auf der „Large Scale Data Facility“ (LSDF) im Service SDS@hd gespeichert, einer dedizierten Online-Speicherplattform für Forschungsdaten, die vom Rechenzentrum der Universität Heidelberg für Forschende des Landes Baden-Württemberg betrieben wird. Dieses System verwendet IBM Storage Scale als Software und Dateisystem. Das zweite Speichersystem für den Onlinezugriff auf die gespeicherten Daten ist der Cloud-Speicher von heiCLOUD.
Dieses technische Konzept ermöglicht durch die Kombination beider Systeme eine gute Skalierbarkeit von Kapazität und Performance und bildet damit eine stabile, sichere und hochverfügbare Speicherumgebungen. Die Integrität des heiDATA-Systems wird durch einen Checkmk-Monitoring-Server überwacht. Dieser führt kontinuierlich eine Reihe von Prüfungen auf dem heiDATA-Server durch und speichert die Prüfergebnisse in einer lokalen Round Robin-Datenbank.
Backups der PostgreSQL-Datenbank werden jede Nacht durchgeführt. Diese Backups werden auf einem heiCLOUD-Volume gespeichert. Dieses Volume wird jede Nacht mit dem Online-Storage-Volume synchronisiert. Ein Backup-Client (Software IBM Storage Protect) läuft regelmäßig und kümmert sich um die Sicherung der Daten, die nicht auf dem heiCLOUD-Volume und dem LSDF liegen, z.B. die Betriebssystemdaten und Konfigurationsdateien im /etc-Verzeichnis. Diese Backup-Strategie auf mehreren Ziel-Backup-Speichersystemen ermöglicht es, das System im Notfall im Rahmen einer Disaster Recovery innerhalb kurzer Zeiträume wiederherzustellen.
Obwohl das Konzept mit zwei dedizierten Speichersystemen als Backend und nächtlichen Backups auf einem weiteren heiCLOUD-Volume bereits eine sichere Archivierungsinfrastruktur darstellt, wird heiDATA perspektivisch darüber hinaus das Langzeitarchivierungssystem der Universität heiARCHIVE nutzen. heiARCHIVE ist als Dark Archive konzipiert und folgt dem Konzept des OAIS-Referenzmodells (Open Archival Information System). heiARCHIVE basiert auf einer Eigenentwicklung und bietet Funktionen wie Formaterkennung/-validierung und Extraktion von Metadaten aus Dateien. Die Software heiARCHIVE nutzt offene Communitystandards, Softwaretools und Bibliotheken: Auf Basis der Open-Source-Datenverwaltungssoftware iRODS wird eine Speicherabstraktion realisiert, um Datenkopien und Georeplikation zu verwalten, und das Dateipaketierungsformat BagIt wird zur Strukturierung und Benennung von Verzeichnissen und Dateien verwendet. Der METS-Standard wird verwendet, um einen Container für beschreibende, administrative und strukturelle Metadaten zu definieren. Der PREMIS-Standard definiert die Metadaten für die Erhaltung der Datenobjekte und deren langfristige Nutzbarkeit. DataCite wird zur Darstellung der beschreibenden Metadaten verwendet. heiARCHIVE verfügt über eine API, die für die Langzeitarchivierung der in heiDATA veröffentlichten Daten verwendet wird.
Das Repositorium heiDATA sowie der zugehörige Langzeitarchivierungsdienst heiARCHIVE werden auf Systemen in den Räumlichkeiten der Universität betrieben. Für diese Dienste ist eine zuverlässige, stabile und hochverfügbare Kerninfrastruktur vorhanden. Dazu gehören z.B. der Stromanschluss (inkl. unterbrechungsfreier Stromversorgung), Kühlkapazitäten, Netzwerkanbindung (inkl. zwei unabhängiger Uplinks zum Internet). Aus Gründen des Datenschutzes besteht ein restriktives Zugangsmanagement zu den Räumlichkeiten des Rechenzentrums. Für die technische Infrastruktur und die infrastrukturellen Prozesse wird derzeit eine Zertifizierung der Rechenzentrumsräume nach DIN EN 50600 angestrebt. Alle Server, Speichersysteme und weitere IT-Komponenten werden von professionellem Verwaltungspersonal mit langjähriger Erfahrung im Betrieb solcher Systeme betrieben. Diese Systeme werden als zentrale IT-Infrastruktur der Universität dauerhaft vorgehalten. Regelmäßige Erneuerungen und Erweiterungen sind langfristig geplant und werden durch Fördermittel bzw. universitäre Finanzierung sowie durch andere Finanzierungsmodelle finanziert.