Empfohlene Dateiformate
Um eine langfristige Verfügbarkeit digitaler Objekte zu ermöglichen, müssen verschiedene Faktoren berücksichtigt werden. Ein Aspekt, der diese Verfügbarkeit nachhaltig gefährden kann, ist die Wahl des Dateiformats. Es besteht die Gefahr, dass verschiedene Dateiformate in Zukunft beispielsweise nicht mehr ohne Informationsverlust von Computern interpretiert werden können oder dass eine nicht weit verbreitete Spezialsoftware notwendig ist, um die Dateien überhaupt nutzen zu können.
Damit dieses Risiko minimiert werden kann, sollte im Idealfall bereits bei der Entstehung der Daten, spätestens aber bei der Übernahme in ein Langzeitarchivierungssystem darauf geachtet werden, die Informationen in Formaten zu speichern, die allgemein als langfristig stabil angesehen werden. Eine Übersicht über geeignete Dateiformate bietet die „Interaktive Tafel gängiger Dateiformate“ der Landesinitiative Langzeitverfügbarkeit lzv.nrw.
Nicht immer ist die Auswahl eines passenden Dateiformats auf den ersten Blick offensichtlich, da sie je nach erwartetem Nachnutzungsszenario unterschiedlich ausfallen kann. So können unter Umständen auch Formate gewählt werden, die nicht explizit für die Langzeitverfügbarkeit empfohlen werden, sofern der Erhalt der entscheidenden Informationen langfristig sichergestellt werden kann. Diese Vorgehensweise kann beispielsweise dann gewählt werden, wenn eine nachträgliche Konvertierung in ein formal langzeitstabileres Format zu einem erheblichen Informationsverlust führen würde.
Die folgenden Beispiele sollen anhand konkreter Fallbeispiele aus verschiedenen Fachbereichen und mit unterschiedlichen Datenformaten eine Empfehlung für das Vorgehen im konkreten Anwendungsfall geben, sowie die sich daraus ergebenden möglichen Konsequenzen aufzeigen. Die Empfehlungen werden in einer Kooperation aus den Projekten „Digitale Langzeitverfügbarkeit im Bibliotheksverbund Bayern“ und „LaVe – Langfristige Verfügbarkeit und Nutzbarkeit von Forschungsdaten“ erarbeitet und sind sowohl auf GitHub als auch auf Zenodo verfügbar.
Allgemein
3D-Digitalisierung
Bildformat
Bildformat
Name
3D-Digitalisierung
Use Case
Bei der 3D-Digitalisierung können Modelle und Scans in unterschiedlichen Dateiformate entstehen, abhängig von eingesetzter Technik und Software. Im Folgenden wird ein Überblick über gängige Formate gegeben:
Photogrammetrie: Bei der Photogrammetrie können aus Bildern 3D-Modelle erstellt werden. Die resultierenden Dateiformate können je nach Software und Verfahren variieren, aber gängige Formate sind beispielsweise OBJ, PLY oder glTF.
3D-Scanner: Je nach Art des 3D-Scanners können verschiedene Formate entstehen, z. B. STL, OBJ, PLY, XYZ, oder auch spezifische Formate, die von den Herstellern der Scanner verwendet werden.
CAD (Computer-Aided Design): CAD-Programme wie Autodesk AutoCAD oder SolidWorks verwenden oft eigene Dateiformate wie DWG (AutoCAD), SLDPRT (SolidWorks), oder auch STEP oder IGES, die als Industriestandards für den Austausch von CAD-Daten dienen.
Animation und Visualisierung: Bei der Erstellung von 3D-Animationen können Formate wie FBX, glTF oder Alembic (ABC) verwendet werden, um sowohl die 3D-Geometrie als auch die Animationen zu speichern.
Echtzeit-Engines: Für Echtzeit-Rendering-Engines wie Unity oder Unreal Engine werden häufig Formate wie FBX oder glTF verwendet, um 3D-Modelle in die Engine zu importieren.
Medizinische Bildgebung: Medizinische Scans: Bei medizinischen 3D-Bildgebungsverfahren wie CT (Computed Tomography) oder MRT (Magnetic Resonance Imaging) können DICOM (Digital Imaging and Communications in Medicine) oder NRRD (Nearly Raw Raster Data) als gängige Dateiformate verwendet werden.
Virtuelle Realität (VR) und erweiterte Realität (AR): Für immersive VR- und AR-Erlebnisse können Formate wie FBX oder glTF verwendet werden, um 3D-Modelle und Szenen in die virtuelle oder erweiterte Realität zu übertragen.
Kontext
- Allgemein
- Bildformat
- 3D-Digitalisierung
- 3D-Modelle
Empfohlenes Vorgehen
Um 3D-Dateien langfristig zu speichern und ihre Integrität und Zugänglichkeit über die Zeit zu gewährleisten, sollte ein robustes und weit verbreitetes Dateiformat gewählt werden, das von verschiedenen Softwareanwendungen unterstützt wird. Ideal sind offene Standardformate wie glTF oder OBJ, die eine gute Interoperabilität bieten.
OBJ (Wavefront Object):
Vorteile: OBJ ist ein weit verbreitetes und plattformunabhängiges Dateiformat. Es unterstützt sowohl geometrische Informationen als auch Farbinformationen. Es kann von den meisten 3D-Softwareprogrammen gelesen und geschrieben werden.
Nachteile: OBJ unterstützt keine Texturen oder Materialinformationen. Die Dateigröße kann relativ groß sein, insbesondere bei komplexen Modellen.
STL (Standard Triangle Language):
Vorteile: STL ist ein häufig verwendetes Dateiformat für 3D-Modelle. Es besteht aus einer Sammlung von Dreiecksmeshes und speichert nur die Geometrie der Modelle. STL-Dateien sind klein und einfach zu handhaben.
Nachteile: STL unterstützt keine Farbinformationen, Texturen oder komplexe Geometrien wie gekrümmte Oberflächen. Es ist nicht geeignet, um vollständige 3D-Modelle mit allen Details zu speichern.
FBX (Filmbox):
Vorteile: FBX ist ein weit verbreitetes Dateiformat, das von vielen 3D-Softwareprogrammen unterstützt wird. Es kann sowohl geometrische Informationen als auch Animationen, Texturen und Materialien speichern. Es ist gut geeignet für den Austausch von 3D-Daten zwischen verschiedenen Softwareanwendungen.
Nachteile: FBX ist ein proprietäres Dateiformat von Autodesk und die genaue Spezifikation ist nicht öffentlich verfügbar. Es kann zu Kompatibilitätsproblemen zwischen verschiedenen Versionen der Software kommen.
PLY (Polygon File Format):
Vorteile: PLY ist ein flexibles Dateiformat, das sowohl geometrische Informationen als auch zusätzliche Attribute wie Farben, Normalen oder Texturkoordinaten speichern kann. Es ist einfach zu lesen und zu schreiben.
Nachteile: PLY-Dateien können relativ groß sein, insbesondere wenn sie viele zusätzliche Attribute enthalten. Es wird möglicherweise nicht von allen 3D-Softwareprogrammen unterstützt.
glTF (GL Transmission Format):
Vorteile: glTF ist ein plattformunabhängiges und effizientes Dateiformat für 3D-Modelle. Es unterstützt sowohl geometrische Informationen als auch Materialien, Texturen und Animationen. glTF-Dateien können in Echtzeitgrafikanwendungen verwendet werden und sind gut für Web-basierte 3D-Anwendungen geeignet.
Nachteile: glTF ist ein vergleichsweise neues Format und wird möglicherweise nicht von allen älteren 3D-Softwareprogrammen unterstützt. Es kann Einschränkungen bei der Kompatibilität mit bestimmten Anwendungen geben.
Es ist wichtig zu beachten, dass die Wahl des Dateiformats von den spezifischen Anforderungen und Anwendungen abhängt. Einige Formate sind besser für den Austausch und die Zusammenarbeit zwischen verschiedenen Softwareanwendungen geeignet, während andere Formate spezifische Merkmale wie Farbinformationen oder Animationen unterstützen. Die Entscheidung für das passende Dateiformat sollte basierend auf den konkreten Anforderungen, der Kompatibilität mit der verwendeten Software und der beabsichtigten Verwendung getroffen werden.
Die Modelle sollten möglichst umfangreich mit Metadaten beschrieben werden, einschließlich Informationen wie Erstellungsdatum, Scanner, Autoren, Beschreibung und Nutzungslizenz. Metadaten erleichtern die spätere Verwaltung, Suche und Nutzung der Dateien.
Grund
Die Nachnutzung von Dateiformaten die mit proprietärer Software erstellt wurden, ist nur eingeschränkt möglich. Eine Langzeitverfügbarkeit, sowie künftige Nachnutzung kann für diese Dateiformate ebenfalls nicht sichergestellt werden. Daher sollten nach Möglichkeit offene Dateiformate verwendet werden, beziehungsweise eine Konvertierung in diese erfolgen.
Konsequenzen und Kosten
Eine Konvertierung in offene Formate wie z.B. OBJ ist in vielen Fällen verlustfrei möglich. Diese können dann mit geringem Aufwand langfristig zugänglich gehalten werden.
Weitere Hinweise
Task force report “3D content in Europeana”
Community Standards for 3D Data Preservation
Expert Group on Digital Cultural Heritage and Europeana
Geistes- und Sozialwissenschaften
Archäologie
Bildformat
Multimediaformat
Bildformat
Multimediaformat
Name
Archäologie
Use Case
In der Archäologie sind digitale Methoden zur Datengenerierung, -erfassung, -auswertung und -darstellung weit verbreitet. Dazu gehören digitale Prospektions- und Grabungsverfahren wie z.B. Gelände- und Laserscans oder Luftaufnahmen, Dokumentation der Funde und Ausgrabungsstätten mittels Digitalfotografie oder 3D-Modellen sowie Datenanalyse und -aufbereitung und -visualisierung. Dabei entstehen oft unterschiedliche Bild-, Film- und 3D-Daten neben vielfältigen anderen Messdaten.
Eingesetzte Techniken und/oder Materialien: Digitalfotografie, Luftaufnahmen, 3D-Scans, Röntgenaufnahmen, Laserscans, Geländemodelle, digitalisierte historische Dokumente, Karten und Grundrisse, 360°-Filme
Kontext
- Geistes- und Sozialwissenschaften
- Geisteswissenschaften
- Alte Kulturen
- Bildformat
- Multimediaformat
Empfohlenes Vorgehen
Proprietäre Dateiformate sollten in offene nicht-proprietäre Formate konvertiert werden und neben den Ausgangsdaten zusätzlich gespeichert werden.
Grund
Die Nachnutzung von Dateiformaten die mit proprietärer Software erstellt wurden, ist nur eingeschränkt möglich. Eine Langzeitverfügbarkeit, sowie künftige Nachnutzung kann für diese Dateiformate ebenfalls nicht sichergestellt werden. Daher sollten nach Möglichkeit offene Dateiformate verwendet werden, beziehungsweise eine Konvertierung in diese erfolgen.
Konsequenzen und Kosten
Eine Konvertierung in offene Formate ist in vielen Fällen verlustfrei möglich. Diese können dann mit geringem Aufwand langfristig zugänglich gehalten werden.
Weitere Hinweise
Interaktive Grafik-Anwendungen
Bildformat
Multimediaformat
Bildformat
Multimediaformat
Name
Interaktive Grafik-Anwendungen
Use Case
Für die Analyse der demographischen Entwicklung einer geographischen Region wurden verschiedene Daten erhoben. Um die kausalen Zusammenhänge der verschiedenen Faktoren und Effekte visuell nachvollziehbar darstellen zu können, wurde eine interaktive Grafik erstellt. Die Speicherung erfolgte im Shockwave Flash-Format (SWF - heute auch Small Web Format), das zum Zeitpunkt der Analyse weit verbreitet und als De-facto-Standard für vektororientierte Grafiken und Animationen auf Webseiten etabliert war. Diese Daten sollen nun zum Zweck der Langzeitverfügbarkeit archiviert werden.
Kontext
- Geistes- und Sozialwissenschaften
- Geisteswissenschaften
- Demographie
- Bildformat
- Multimediaformat
- Small Web Format (SWF)
Empfohlenes Vorgehen
Das SWF-Format ist trotz seiner großen Verbreitung in der Vergangenheit mittlerweile obsolet geworden. Auch die in der Vergangenheit beliebten Programme zum Abspielen von SWF-Dateien sind nicht mehr ohne weiteres verfügbar. Auch wenn entsprechende Programme prinzipiell noch genutzt werden können, wird dringend empfohlen, die Dateien in andere Formate zu konvertieren.
Im vorliegenden Fall handelt es sich beispielsweise nicht um eine reine Animation, deren Informationsgehalt auch in einfacheren, nicht-interaktiven (Video-)Formaten weitgehend erhalten bleibt, sondern um eine interaktive Grafik. Wenn also die Quell-Dateien (hier etwa fla und as3) noch vorhanden sind, dann gibt es (noch) entsprechende Software-Werkzeuge, die eine Konvertierung weitgehend leisten können. Dies ist aber meist mit direkten Kosten (Software) und immer mit indirekten Kosten (Personalaufwand) verbunden.
Grund
Am Beispiel dieses Formats wird deutlich, warum die Verwendung offener Dateiformaten gegenüber proprietären Formaten zu bevorzugen ist. Denn die Tatsache, dass ein bestimmtes proprietäres Dateiformat weit verbreitet ist, bedeutet nicht automatisch, dass es auch in Zukunft noch verwendet werden kann. Bei den Shockwave Flash-Formaten (.flv, .f4v, .swf) handelt es sich zwar um offen dokumentierte, aber proprietäre Dateiformate von Adobe. Zur korrekten Darstellung dieser Dateien wird in der Regel ein entsprechender Flash-Player benötigt, der bis vor einigen Jahren noch standardmäßig in den gängigen Browsern integriert war. Aus verschiedenen Gründen wird der Player jedoch seit 2021 nicht mehr unterstützt, so dass von seiner Verwendung abgeraten wird. Bei proprietären Dateiformaten muss grundsätzlich damit gerechnet werden, dass diese nicht mehr weiterentwickelt oder genutzt werden können.
Konsequenzen und Kosten
Prinzipiell können auch proprietäre Dateiformate langzeitarchiviert werden, also auch die hier vorliegenden Daten im proprietären Shockwave Flash-Format. Allerdings kann für solche Daten lediglich eine technische Erhaltung (Bitstream Preservation) ermöglicht werden. Eine künftige Nachnutzung ist dann, wie schon zum jetzigem Zeitpunkt, wenn überhaupt, nur mit größerem Aufwand möglich.
Wenn die Konvertierung in ein anderes Dateiformat nicht möglich oder zu kostenintensiv ist, besteht prinzipiell die Möglichkeit, die für die Nutzung notwendige Software, in diesem Fall den Flash-Player, ebenfalls zu archivieren. Hierbei müssen jedoch sowohl rechtliche als auch technische Kosten-Nutzen-Aspekte beachtet werden.
Nach einer erfolgreichen Konvertierung sollte außerdem immer überprüft werden, ob alle für das Verständnis oder die Nachnutzung wesentlichen Aspekte korrekt dargestellt werden. Aus Gründen der Nachvollziehbarkeit können bei Bedarf zusätzlich auch die Originaldaten archiviert werden.
Weitere Hinweise
Musik-Datenbanken
Datenbankformat
Datenbankformat
Name
Musik-Datenbanken
Use Case
In einem musikwissenschaftlichen Projekt werden Schaffende, deren Lebensdaten, Werke, Aufführungen und weitere Informationen in einer SQL-Datenbank erfasst. Die Datenbank besteht aus mehreren Tabellen.
Kontext
- Geistes- und Sozialwissenschaften
- Geisteswissenschaften
- Kunst-, Musik-, Theater- und Medienwissenschaften
- Datenbankformat
- Faktendatenbank
Empfohlenes Vorgehen
Aus Datenbanken können die darin enthaltenen Informationen sowie die Struktur der Datenbank in Form von sogenannten Datenbankdumps exportiert werden. Dabei wird beispielsweise bei SQL-Datenbanken eine Datei mit einer Liste von SQL-Befehlen erzeugt, die die Datenbank abbilden. Diese Dumps sind reine Text-Dateien und daher sehr gut langfristig digital zu archivieren. Aus dem Dump kann die Datenbank exakt in dem Zustand wiederhergestellt werden, in dem sie sich zum Zeitpunkt des Dumps befand.
Zusätzlich zum Dump können die einzelnen Tabellen auch als CSV-Dateien gespeichert werden. Dieser zusätzliche Aufwand, der bei einfachen Datenbanken in der Regel gering ist, ermöglicht einen etwas direkteren Zugang zu den Informationen.
Grund
Die Archivierung der Datenbank-Datei selbst garantiert nicht zwangsläufig, dass diese langfristig auch geöffnet und mit vollem Funktionsumfang genutzt werden kann. Datenbankdumps haben den Vorteil, dass - auch wenn die Datenbanksprache nicht mehr aktiv verwendet wird - alle Informationen aus der Textdatei rekonstruiert werden können.
Konsequenzen und Kosten
Der Aufwand für die Erstellung eines Datenbankdumps ist gering. Meist kann dieser mit einem einzigen Datenbankbefehl erzeugt werden - etwa bei PostgreSQL. Eine Wiederherstellung erfolgt ebenfalls durch ein kurzes Datenbankkommando, mit dem eine leere Datenbank aus dem Dump befüllt wird. Es wird empfohlen, zu prüfen, ob die Datenbank aus dem Dump fehlerfrei rekonstruiert werden kann oder ob eine Fehlermeldung auftritt.
Bei großen Datenbanken kann der Dump speicherintensiv sein. In diesen Fällen ist es von Vorteil, den Dump nach der Fehlerkontrolle zu komprimieren, beispielsweise mit gzip oder einem anderen Programm. Das geringere Datenvolumen reduziert die Kosten für die Archvierung und beschleunigt den Datentransfer.
Bei der Archivierung der Datenbank selbst ist eine langfristige Verfügbarkeit nicht sichergestellt. Wenn die Datenbankstruktur von zukünftig verwendeten Programmen nicht mehr vollständig interpretiert werden kann, können wichtige Informationen verloren gehen. Durch eine entsprechende Kuratierung kann das verhindert werden. Dies erfordert jedoch Ressourcen, die für Datenbankdumps nicht notwendig sind.
Weitere Hinweise
Tabellarische Annotationen in der Sprachwissenschaft
Tabellenformat
Tabellenformat
Name
Tabellarische Annotationen in der Sprachwissenschaft
Use Case
In einer linguistischen Untersuchung werden verschiedene im 19. Jahrhundert publizierte Texte auf bestimmte sprachliche Merkmale und den Kontext, in dem bestimmte Bezeichnungen verwendet werden, untersucht. Für die Organisation und Auswertung der Daten wurde ein gängiges Tabellenkalkulationsprogramm (Calc, Excel,…) genutzt. Darin wurden die relevanten Textstellen gesammelt, annotiert, klassifiziert und kodiert. Dabei wurden die einzelnen Daten jeweils in eigene Spalten eingetragen, etwa die Referenz zur Quelle, die Textstelle selbst oder die Kodierung. Alle Abkürzungen, Kodes und Klassen werden in einer separaten Dokumentation aufgelistet und beschrieben.
Kontext
- Geistes- und Sozialwissenschaften
- Geisteswissenschaften
- Sprachwissenschaften
- Tabellenformat
- Annotation
Empfohlenes Vorgehen
Da in dieser Tabelle keine besonderen Formatierungen, Formeln zur Berechnung von Feldinhalten oder Makros genutzt wurden, die für eine spätere Verwendung der Daten essentiell sind, wurde empfohlen die Tabelle in das CSV-Format (Comma-Separated Values) zu exportieren. Unter Formatierungen fällt hier beispielsweise die Nutzung von Farben (Einfärbung von Zellen, Textfarbe), um Informationen zu vermitteln. Idealerweise sollten Farben höchstens zur besseren Visualisierung für den Menschen, aber nicht als alleiniger Informationsträger verwendet werden. Stattdessen bietet sich an, den Informationsinhalt nochmals gesondert in einer zusätzlichen Spalte zu hinterlegen. Diese Spalte - und damit die Information - wird dann beim Export in das CSV-Format erhalten bleiben.
Grund
Für die Langzeitverfügbarkeit von Daten sollten grundsätzlich offene, nicht-proprietäre Dateiformate gewählt werden. Bei Microsoft Office wird beispielsweise für Tabellenkalkulationen das Format XLSX verwendet. Das Format ist grundsätzlich nach dem Office Open XML Standard gestaltet, jedoch ist es ohne entsprechende Programme nur mit Aufwand möglich, die Daten aus diesem sehr komplexen Standard zu extrahieren. Das CSV-Format hingegen kann sowohl mithilfe verschiedener Tabellenkalkulationsprogramme als auch mit jedem einfachen Texteditor gelesen und bearbeitet werden.
Konsequenzen und Kosten
Für die nähere Zukunft werden auch Dateien im XLSX-Format weiterhin zugänglich und damit lesbar sein. Im Sinne der Langzeitverfügbarkeit erschweren komplexe Dateiformate (wozu auch das XLSX-Format gehört) eine dauerhafte Verfügbarkeit und Kuratierung. In diesen Fällen kann deshalb möglicherweise nur eine technische Erhaltung der Daten sichergestellt werden.
Für eine Speicherung im CSV-Format entstehen keine weiteren Kosten und nur minimaler Zeitaufwand, da CSV-Dateien beispielsweise direkt aus Microsoft Excel heraus gespeichert werden können.
Nach der Speicherung und vor dem Import in ein Langzeitarchivierungssystem sollten die Daten unbedingt auf Vollständigkeit und vor allem auf die Korrektheit der darin enthaltenen Daten überprüft werden, um möglicherweise auftretende Formatierungsfehler beheben zu können.
Weitere Hinweise
Umfrage zur statistischen Erhebung
Tabellenformat
Tabellenformat
Name
Umfrage zur statistischen Erhebung
Use Case
Im Zuge einer sozialwissenschaftlichen Umfrage wurden auf der Basis eines standardisierten Fragebogens verschiedene Daten zur Lebensqualität einer definierten Alterskohorte in einem geografisch abgegrenztem Gebiet erhoben. Die Ergebnisse dieser Umfragen werden anschließend in einer Tabelle festgehalten.
Kontext
- Geistes- und Sozialwissenschaften
- Sozial- und Verhaltenswissenschaften
- Tabellenformat
- Umfrage
Empfohlenes Vorgehen
Die Auswertung der Daten erfolgte hier mit gängigen, kommerziellen Tabellenkalkulationsprogrammen wie Microsoft Excel. Sofern in einer solchen Tabelle keine weitergehenden Informationen wie Formatierungen, mathematische Formeln oder Makros enthalten sind, die für die weitere Verwendung der Daten essentiell sind, wird empfohlen, diese im CSV (Comma-separated values)-Format zu speichern. Der Export ist direkt aus dem Tabellenkalkulationsprogramm möglich. Dabei muss darauf geachtet werden, alle Blätter / Reiter in eigene CSV-Dateien zu exportieren. Eine anschließende Prüfung auf Vollständigkeit wird dringend empfohlen.
Grund
Für die Langzeitverfügbarkeit von Daten sollten grundsätzlich offene, nicht proprietäre Dateiformate gewählt werden. Bei Microsoft Office handelt es sich jedoch um eine proprietäre Software. Im vorliegenden Fall werden die Tabellen standardmäßig im Office-eigenen Format XLSX gespeichert. Das Tabellenformat CSV hingegen kann sowohl mit verschiedenen Tabellenkalkulationsprogrammen als auch mit jedem einfachen Texteditor gelesen und bearbeitet werden.
Konsequenzen und Kosten
Für die nähere Zukunft werden auch Daten im XLSX-Format weiterhin zugänglich und damit lesbar sein. Im Sinne der Langzeitverfügbarkeit kann jedoch für proprietäre nicht-offene Dateiformate (wozu auch das XLSX-Format gehört) eine dauerhafte Verfügbarkeit unter Umständen nicht ermöglicht werden. In diesen Fällen kann deshalb möglicherweise nur eine technische Erhaltung der Daten sichergestellt werden. Für eine Speicherung im CSV-Format entstehen keine weiteren Kosten oder zusätzlicher Aufwand, da CSV-Dateien direkt aus Microsoft Excel heraus gespeichert werden können. Alternativ können die Daten auch in beiden Formatarten archiviert werden. Bei sehr großen Tabellen könnten hierbei allerdings merkliche zusätzliche Kosten durch den erhöhten Speicherbedarf entstehen.
Nach der Speicherung als CSV und vor dem Import in ein Langzeitarchivierungssystem sollten die Dateien unbedingt auf Vollständigkeit und vor allem auf die Korrektheit der darin enthaltenen Daten überprüft werden, um möglicherweise auftretende Formatierungsfehler beheben zu können.
Weitere Hinweise
Ingenieurwissenschaften
Computer-Aided Design (CAD)
Bildformat
Bildformat
Name
Computer-Aided Design (CAD)
Use Case
Während der Erstellung von computergestützten Konstruktionen entstehen Daten für Erstellung, Modellierung und Analyse technischer Designs. Die Modelle können 2D- oder 3D-Darstellungen umfassen und beinhalten Informationen über geometrische Formen, Abmessungen und Toleranzen.
Mögliche Dateiformate: AutoCAD Drawing (DWG), Drawing Exchange Format (DXF), Standard for the Exchange of Product Data (STEP), Initial Graphics Exchange Specification (IGES), Stereolithography (STL), Wavefront OBJ (OBJ), Rhinoceros 3D Model (3DM), Industry Foundation Classes (IFC), ACIS SAT Model (SAT), PTC Creo Model (PTC Creo), CATIA Model (CATIA), SolidWorks Model (SolidWorks), Pro/ENGINEER Model (Pro/ENGINEER), Siemens PLM Software JT Open (JT), Parasolid Model (Parasolid), Autodesk Revit Model (Revit), Autodesk Inventor Model (Inventor), MicroStation Design File (DGN), Polygon File Format (PLY), Virtual Reality Modeling Language (VRML).
Kontext
- Ingenieurwissenschaften
- Bildformat
- 3D-Modelle
Empfohlenes Vorgehen
Proprietäre Dateiformate sollten in ein offenes nicht-proprietäres Format konvertiert werden.
Grund
Die proprietären Formate können nur mit der entsprechenden Firmen-Software geöffnet werden. Sollte jedoch in Zukunft das Programm veralten, der Support der Software eingestellt werden oder vom Markt verschwinden, kann auf diese im Zweifelsfall nicht mehr zurückgegriffen werden. Die Dateien sind damit unbrauchbar.
Konsequenzen und Kosten
Eine Konvertierung in offene Formate wie z.B. OBJ ist in vielen Fällen verlustfrei möglich. Diese können dann mit geringem Aufwand langfristig zugänglich gehalten werden.
Rendering von CGI
Bildformat
Bildformat
Name
Rendering von CGI
Use Case
Im Bereich der Computergrafik, der Computer Generated Imagery (CGI), wird an der Optimierung von Rendering Verfahren geforscht, mit dem Ziel, die Zeiten für das Erreichen einer hohen Qualität der erzeugten Bilder zu reduzieren. Dazu wird ein Modell entwickelt, welches die Limitierungen des menschlichen Auges bei der Erkennung von Unterschieden abbildet. Dieses Modell wird anschließend angewendet, um die Zeit für die Bilderzeugung reduzieren zu können.
Kontext
- Ingenieurwissenschaften
- Informatik, System- und Elektrotechnik
- Informatik
- Bildformat
- Bildqualität
Empfohlenes Vorgehen
Bei Bildern können durch eine verlustbehaftete Kompression (lossy compression) bei der Speicherung wichtige Informationen der Originaldaten verloren gehen, so dass eine originalgetreue Rekonstruktion nicht mehr möglich ist. Die im vorliegenden Beispielfall erzeugten Forschungsdaten - Bilder - müssen jedoch für eine spätere Nutzung in höchstmöglicher Qualität gespeichert werden. Aus diesem Grund sollten Formate mit einer verlustfreien Datenkompression (lossless compression) wie beispielsweise das TIFF- oder das PNG-Format verwendet werden.
Grund
Im vorliegenden Anwendungsfall sind bereits feine Nuancen bei der Beurteilung der Bildqualität entscheidend. Verlustbehaftete Verfahren welche beispielsweise auch beim JPEG-Format verwendet werden, nutzen jedoch ähnliche Mechanismen, wie sie beim beschriebenen Rendering Verfahren für die Optimierung der Renderingzeit eingesetzt werden sollen. Durch die Verwendung eines solchen Formats bei der Speicherung wäre eine anschließende Nutzung der Forschungsdaten für diesen Forschungszweck nicht mehr möglich, da durch die Komprimierung mit hoher Wahrscheinlichkeit wichtige Informationen verloren gegangen sind.
Konsequenzen und Kosten
Es entsteht kein zusätzlicher Aufwand für die Langzeitarchivierung, da die Bilder bereits für die Forschung im korrekten, verlustfrei komprimierenden Format gespeichert werden müssen. Sowohl das TIFF- als auch das PNG-Format sind für eine Archivierung im Sinne der Langzeitverfügbarkeit gut geeignet und es sind perspektivisch keine Migrationen zu erwarten.
Weitere Hinweise
Lebenswissenschaften
Lehr- und Lernvideos
Multimediaformat
Multimediaformat
Name
Lehr- und Lernvideos
Use Case
An einem Lehrstuhl für Didaktik einer Hochschule werden Lehrvideos zu verschiedenen Experimenten für eine Nutzung im Schulunterricht produziert. Diese werden im Containerformat QuickTime (.mov) mit dem Videocodec MPEG-2 gespeichert.
Kontext
- Lebenswissenschaften
- Didaktik
- Multimediaformat
- Lehrvideos
Empfohlenes Vorgehen
Neben dem Containerformat der Videodateien müssen für eine Langzeitverfügbarkeit auch die enthaltenen Codecs berücksichtigt werden. Generell sollten die Videos dafür einerseits nach Möglichkeit in einem offenen Containerformat gespeichert werden und andererseits sollte, wenn möglich keine verlustbehaftete (lossy) Kompression verwendet werden. Ein mögliches offenes Containerformat, das für die Langzeitverfügbarkeit gut geeignet ist, ist beispielsweise das Matroska-Format (.mkv). In Kombination mit diesem ist der offene und verlustfrei komprimierende Codec FFV1 für Videos gut geeignet, sowie falls benötigt FLAC als verlustfrei komprimierender Codec für Audiodaten. Sofern die Videos noch im Rohdatenformat vorliegen, können diese direkt in passenden Formaten für die Langzeitverfügbarkeit gesichert werden. Liegen die Videos hingegen nur in einem bereits komprimierten Format vor, sollte abgewogen werden, ob eine Konvertierung in ein offenes Format sinnvoll ist. Denn die Konvertierung von bereits komprimierten Dateien in ein anderes Dateiformat kann zu weiteren Informationsverlusten führen. Es wird empfohlen, sich frühzeitig über die verschiedenen Formate zu informieren und die für den jeweiligen Zweck geeigneten auszuwählen.
Grund
Grundsätzlich sind für die Sicherung im Sinne der Langzeitverfügbarkeit immer offene, gut dokumentierte und nicht-proprietäre Formate zu bevorzugen. Dies gilt sowohl für die verwendeten Container als auch für die darin enthaltenen Codecs. Das im vorliegenden Fall verwendete QuickTime-Format ist zwar ein offen dokumentiertes, aber dennoch proprietäres Containerformat von Apple. Das Format erlaubt grundsätzlich auch die Integration verschiedener offener Video- und Audiocodecs, welche für die Langzeitverfügbarkeit gut geeignet sind, jedoch kann es aufgrund des proprietären Containerformats bei einer eventuell notwendigen Migration zu Problemen kommen.
Generell sind Dateien in einem unkomprimierten Format für die Langzeitverfügbarkeit am besten geeignet. In der Praxis ist dies bei Videodaten aufgrund des hohen Speicherplatzbedarfs aber of nur schwer realisierbar. Daher sollte bei der Komprimierung nach Möglichkeit darauf geachtet werden, dass diese verlustfrei (lossless) erfolgt, um Informationsverlust zu vermeiden. Der in dem Beispiel-Fall verwendete Videocodec MPEG-2 komprimiert die Daten in der Regel verlustbehaftet (lossy), ebenso wie die anderen weit verbreiteten MPEG-Standards. Je geringer die Kompressionsrate ist, desto höher ist auch der Speicherplatzbedarf (Beispiel-Video mit einer Dauer von 30 min: unkomprimiert - 600 GB vs. FFV1-Codec - 350 GB vs MPEG-4-Codec - 1.8 GB).
Konsequenzen und Kosten
Sofern die Videodateien in einem proprietären Format gespeichert werden, kann im Sinne der Langzeitverfügbarkeit unter Umständen nur eine technische Erhaltung (Bitstream Preservation) erfolgen. Dadurch besteht die Möglichkeit, dass die Dateien in Zukunft nicht mehr genutzt werden können, da eine Migration in ein zukünftig aktuelles Dateiformat nicht mehr möglich ist. Bei komprimierten Dateien sollte außerdem berücksichtigt werden, dass es bei jeder Migration zu weiteren Datenverlusten kommen kann, wodurch Informationen verloren gehen können, so dass auch hier die Möglichkeit besteht, dass die Dateien nicht mehr nutzbar sind. Welche Codecs für welchen Zweck geeignet sind, sollte im Einzelfall und in Abhängigkeit von der späteren Nutzung entschieden werden.
Weitere Hinweise
Medizinische Bildgebung
Bildformat
Bildformat
Name
Medizinische Bildgebung
Use Case
In der Medizin sind bildgebende Verfahren weit verbreitet und spielen eine entscheidende Rolle bei Diagnose und Behandlung. Diese Verfahren umfassen digitale Methoden zur Datengenerierung, -erfassung, -auswertung und -darstellung und ermöglichen die Erfassung von hochauflösenden Bildern des menschlichen Körpers. Die Datenanalyse und -aufbereitung erfolgt mithilfe spezialisierter Software und die Visualisierung kann in Form von 2D-Bildern, 3D-Modellen oder interaktiven virtuellen Umgebungen erfolgen.
Eingesetzte Techniken: Magnetresonanztomographie (MRT), Computertomographie (CT), Ultraschall, Positronen-Emissions-Tomographie (PET), Röntgen
Kontext
- Lebenswissenschaften
- Medizin
- Bildformat
- 3D-Modelle
Empfohlenes Vorgehen
Werden bei einem Verfahren Bilddaten produziert, die erst in weiteren Verarbeitungsschritten zu mehrdimensionalen Daten aufbereitet werden, ist es abzuwägen, ob die Rohdaten aufbewahrungswürdig sind oder nicht. Proprietäre Dateiformate sollten in offene nicht-proprietäre Formate konvertiert werden und neben den Ausgangsdaten zusätzlich gespeichert werden.
Grund
Proprietäre Dateiformate können nur mit der entsprechenden Firmen-Software geöffnet werden. Sollte jedoch in Zukunft das Programm veralten, der Support der Software eingestellt werden oder vom Markt verschwinden, kann auf diese im Zweifelsfall nicht mehr zurückgegriffen werden. Die Dateien sind damit unbrauchbar.
Konsequenzen und Kosten
Eine Konvertierung in offene Formate ist in vielen Fällen verlustfrei möglich. Diese können dann mit geringem Aufwand langfristig zugänglich gehalten werden.
Mikroskopische Aufnahmen
Bildformat
Bildformat
Name
Mikroskopische Aufnahmen
Use Case
Am Mikroskop aufgenommene Bilder werden in der Regel standardmäßig in einem herstellerspezifischen proprietären Dateiformat abgespeichert, beispielsweise im Leica Image File Format (.lif) oder im Zeiss Vision Image - Format (.zvi).
Kontext
- Lebenswissenschaften
- Bildformat
- Mikroskopie
Empfohlenes Vorgehen
Proprietäre Dateiformate sollten nach Möglichkeit in ein offenes nicht-proprietäres Format konvertiert werden. Typische Formate sind beispielsweise das Tagged Image File Format (TIFF) oder JPEG. Mithilfe des Open Source Tool Fiji (https://github.com/fiji) können viele der proprietären Formate geöffnet und anschließend im entsprechend gewünschten Format gespeichert werden. Dabei sollte darauf geachtet werden, dass wichtige in dem Herstellerformat hinterlegte Metadaten ebenfalls erhalten bleiben.
Grund
Proprietäre Firmenformate können zum aktuellen Zeitpunkt noch mithilfe der entsprechenden Firmen-Software geöffnet werden. Sollte jedoch in Zukunft beispielsweise der Support für eine der benötigten Softwares eingestellt werden, kann auf diese im Zweifelsfall nicht mehr zurückgegriffen werden. Die Dateien wären damit im Ursprungsformat unbrauchbar.
Konsequenzen und Kosten
Da mikroskopische Aufnahmen häufig auch mithilfe eines Bearbeitungsprogramms ausgewertet oder weiter bearbeitet werden, entsteht kein zusätzlicher Aufwand wenn die vorliegenden Bilddateien in einem weiteren Schritt zusätzlich in einem offenen Format abgespeichert werden.
Bei der Auswahl des offenen Formats sollte nach Möglichkeit darauf geachtet werden, ein für die Langzeitverfügbarkeit geeignetes Format auszuwählen. Wenn für weitere Analysen beispielsweise hohe Auflösung und Farbtiefe notwendig ist, kann etwa das TIFF-Format gewählt werden. Werden die Aufnahmen hingegen lediglich zu Dokumentations- oder Präsentationszwecken verwendet, kann zum Beispiel auch das verlustbehaftet komprimierende Format JPEG verwendet werden. Bei der Wahl des Formats sollte auch berücksichtigt werden, dass selbst ein verlustfrei komprimiertes TIFF-Format noch mehr Speicherplatz benötigt als etwa das JPEG-Format. (Beispiel-Bild: TIFF - 7,53 MB vs. JPEG - 20,2 KB)
Werden die Daten lediglich im proprietären Hersteller-spezifischen Format abgespeichert, kann unter Umständen keine Langzeitverfügbarkeit gewährleistet werden, sondern lediglich eine technische Erhaltung der Daten (Bitstream Preservation) ermöglicht werden.
Weitere Hinweise
Vektorgrafiken von experimentellen Aufbauten
Bildformat
Bildformat
Name
Vektorgrafiken von experimentellen Aufbauten
Use Case
Um Forschungsdaten und daraus resultierende Ergebnisse visuell darzustellen oder zum Beispiel im Bereich der Lebenswissenschaften experimentelle Aufbauten zu veranschaulichen, werden üblicherweise Grafiken verwendet. Aufgrund verschiedener Vorteile werden für diese Zwecke häufig Vektorgrafiken anstelle von Rastergrafiken verwendet. Für die Erstellung dieser Vektorgrafiken wird oft auf kommerzielle Angebote wie Adobe Illustrator oder CorelDraw zurückgegriffen. Die Sicherung der dabei entstandenen Grafiken erfolgt dabei in der Regel auch in den entsprechenden proprietären Dateiformaten.
Kontext
- Lebenswissenschaften
- Allgemein
- Bilddaten
Empfohlenes Vorgehen
Bei Vektorgrafiken, die mithilfe kommerzieller Software erstellt wurden, sollte nach Möglichkeit darauf geachtet werden, diese in einem offenen Dateiformat wie beispielsweise dem Scalable Vector Graphics - Format (.svg) zu sichern, insofern eine Nachnutzung ermöglicht werden soll. Diese offenen Formate können entweder direkt über die verwendete Software exportiert werden oder zu einem späteren Zeitpunkt, wenn kein Zugriff mehr auf die Software besteht, mit freier Software (z.B. Inkscape) konvertiert werden. Sofern in Zukunft keine weitere Bearbeitung der Vektorgrafik erforderlich ist, kann die Grafik auch als PDF-Datei gespeichert werden. Dafür kann ebenfalls entweder die verwendete kommerzielle Software oder eine freie Software verwendet werden.
Grund
Die Nachnutzung von Vektorgrafiken die mit kommerzieller Software wie Adobe Illustrator oder CorelDraw erstellt wurden, ist bereits zum jetzigen Zeitpunkt beispielsweise mit anderer Software nur eingeschränkt möglich. Eine Langzeitverfügbarkeit, sowie zukünftige Nachnutzung kann daher für diese proprietären Dateiformate ebenfalls nicht sichergestellt werden. Aus diesem Grund sollte deshalb nach Möglichkeit die Verwendung offener Dateiformate beziehungsweise eine Konvertierung in solche Formate angestrebt werden.
Konsequenzen und Kosten
Insofern Vektorgrafiken in einem proprietären Dateiformat gesichert werden, ist zu beachten, dass es einerseits zu einer eingeschränkten Nachnutzung kommen kann und andererseits im Rahmen der Langzeitverfügbarkeit nur eine technische Erhaltung der Datei möglich ist. Dies kann dazu führen, dass solche Dateien in Zukunft nicht mehr genutzt werden können. Der Aufwand für eine Sicherung in offenen Dateiformaten ist gering. Die Dateien können entweder direkt in einem offenen Dateiformat exportiert werden oder mithilfe von freier Software konvertiert werden. Da es bei der Konvertierung zu Fehlern kommen kann, sollten die Dateien abschließend visuell überprüft werden.