Empfehlungen für den Datenupload - ETH-Bibliothek

Transcrição

Empfehlungen für den Datenupload - ETH-Bibliothek
ETH Zürich
ETH-Bibliothek
Fachstelle Digitaler Datenerhalt
Telefon +41 44 632 41 16
[email protected]
www.library.ethz.ch/Digitaler-Datenerhalt
Empfehlungen für den Datenupload
Die nachfolgenden Empfehlungen gelten für den manuellen Upload von Dateien über das
Webinterface ins ETH Data Archive (http://data-archive.ethz.ch/deposit).
Falls ein solcher Web-Upload Ihre Bedürfnisse nicht abdeckt, nehmen Sie bitte mit uns Kontakt auf,
um mögliche Alternativen zu prüfen.
Im ersten Teil dieses Dokuments wird erklärt, wie Sie Ihre Dateien und Ordner vorbereiten können,
damit ihre Daten möglichst langfristig lesbar bleiben.
Für die befristete Archivierung von grösseren Mengen heterogener Forschungsdaten empfehlen wir
zur Zeit das Packen der Dateien in Containerformate. Hinweise zum Vorgehen beim Erzeugen von
ZIP- oder Tar-Containern und zur Wahl des geeigneten Tools finden Sie im zweiten Teil dieses
Dokuments.
1.
Daten vorbereiten
Daten selektieren
Wählen Sie nur Daten, die einen wissenschaftlichen Bezug haben und auch wirklich langfristig
verfügbar bleiben sollen, für die Archivierung aus. Entsorgen Sie „Datenschrott“ und vermeiden Sie
Redundanzen wie ZIP-Files neben entpackten ZIP-Inhalten, mehrfache Backups oder temporäre
Dateien. Private Daten gehören nicht ins ETH Data Archive.
Offene Formate wählen
Im Hinblick auf eine langfristige Lesbarkeit sollten Sie darauf achten, dass Ihre Daten nach
Möglichkeit in nicht-proprietären Formaten gemäss offenen, dokumentierten Standards gespeichert
sind. Wenn die Daten länger als 10 Jahre nutzbar bleiben sollen, empfiehlt es sich, seltene Formate in
gebräuchlichere zu konvertieren. Hinweise dazu gibt Ihnen unser Merkblatt zum
Thema Archivtaugliche Dateiformate.
Sonderzeichen vermeiden
Vermeiden Sie Sonderzeichen in den Namen von Dateien und Ordnern. Solche Zeichen erschweren
die Kompatibilität, da sie je nach Betriebssystem unerwünschte Effekte erzeugen.
Problematische Zeichen sind:
•
\/?:*"><|
Diese sind unter Windows in Dateinamen nicht erlaubt und werden beim Entpacken mit
WinZip in der Regel durch Underscore ersetzt.
•
Nicht-ASCII-Zeichen wie z.B. ¢ ™ ® , Umlaute (ä ö ü), diakritische Zeichen wie à é ô etc.
Beim Packen mit WinZip erzeugen diese Zeichen auf Linux ein Problem, das die betroffenen
Dateien aus ihrer Ordnerstruktur herauslöst.
Erlaubt sind folgende ASCII-Zeichen:
Stand: 18. Juni 2015
1/3
ETH Zürich
ETH-Bibliothek
Fachstelle Digitaler Datenerhalt
Telefon +41 44 632 41 16
[email protected]
www.library.ethz.ch/Digitaler-Datenerhalt
!#$%&'()+,-.0123456789;=@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`
abcdefghijklmnopqrstuvwxyz{}~
Dateiendung bewusst verwenden
Die Dateiendung (z.B. .txt, .pdf) sollte mit dem tatsächlichen Dateiformat konsistent sein. Vermeiden
Sie es, Dateien ohne Endung zu speichern. Vermeiden Sie Sonderzeichen in der Dateiendung.
Länge der Datei- und Ordnernamen beschränken.
Vermeiden Sie bei der Organisation Ihrer Daten überlange Pfade. Eine Kombination von langen
Dateinamen mit fein abgestuften Ordnerstrukturen kann schnell zu Pfadlängen über 256 Zeichen
führen. Diese sind bei der Weiterverarbeitung der Daten auf Windows problematisch. 1 Sonderzeichen
in den Dateinamen sowie das Auspacken von Containern in Unterordnern können die Pfade
zusätzlich verlängern. Daher empfehlen wir im Sinne einer Faustregel eine maximale Pfadlänge von
200 Zeichen.
2. Empfehlungen für das Packen von Dateien
in ZIP- oder Tar-Archive
Für die befristete Archivierung von grösseren Mengen heterogener Forschungsdaten im ETH Data
Archive ohne aktive Validierungs- und Erhaltungsmassnahmen empfehlen wir zur Zeit das Packen der
Dateien in Containerformate (ZIP oder Tar). Dieses Verfahren erlaubt es, sämtliche zu einem
Archivpaket gehörenden Dateien in einem Schritt hochzuladen und auch als Gesamtpaket wieder
herunterzuladen. Dabei bleiben ursprüngliche Ordnerstrukturen gewahrt.
Daten vorbereiten
Auch bei der Verwendung von Containern ist auf eine vorbereitende Pflege der Daten gemäss den
Hinweisen im ersten Teil diese Dokuments zu achten. Die zu archivierenden Dateien sollten sorgfältig
ausgewählt werden und ihr Inhalt möglichst klar dokumentiert sein. Zudem sollten die benutzten
Dateiformate in 10 oder 15 Jahren noch lesbar sein.
Länge der Datei- und Ordnernamen beschränken
Bitte beachten Sie, dass sich die ursprünglichen Ordnerstrukturen aus den Containern in
verschiedenen Betriebssystemen wiederherstellen lassen sollten. Vermeiden Sie daher bei der
Organisation Ihrer Daten überlange Pfade. Pfadlängen über 256 Zeichen sind bei der
Weiterverarbeitung auf Windows problematisch, und WinZip kann Pakete mit überlangen Pfaden gar
nicht vollständig entpacken. Vgl. auch die Empfehlungen unter Punkt 1.
Grosse Datenpakete portionieren
Grosse Datenmengen können sowohl beim Upload als auch beim späteren Download über den
Viewer Schwierigkeiten bereiten. Ab welcher Menge die Probleme auftreten, ist von verschiedenen
Faktoren abhängig, die wir nicht beeinflussen können (Browser, Internetverbindung). Es hat sich
gezeigt, dass Uploads von bis zu 15 GB Grösse zwar technisch möglich sind. Pakete in dieser
Grössenordnung werden sich aber über den Browser kaum herunterladen lassen. Daher empfehlen
wir eine maximale Grösse pro ZIP- oder Tar-Datei von 2 GB. Falls die Grösse Ihres Archivpakets
diesen Wert überschreitet, teilen Sie es bitte in sinnvolle Untereinheiten auf und packen Sie diese in
1
Für den Dateinamen selber gilt auch in anderen Betriebssystemen eine Beschränkung von 255 Zeichen.
Stand: 18. Juni 2015
2/3
ETH Zürich
ETH-Bibliothek
Fachstelle Digitaler Datenerhalt
Telefon +41 44 632 41 16
[email protected]
www.library.ethz.ch/Digitaler-Datenerhalt
einzelne ZIP- oder Tar-Container. Mit einem Mehrfach-Dateiupload können Sie diese als eine Einheit
hochladen.
Bitte benutzen Sie für die Aufteilung nicht die Split-Funktion in WinZip!
Allgemeine Hinweise zum Erzeugen von Containern
•
Erzeugen Sie ausschliesslich Archive mit der Endung .zip oder .tar (kein .7z, tar.gz, .rar etc.).
•
Falls Sie ZIP-Archive erzeugen, zippen Sie Ihre Daten bitte ohne Komprimierung.
•
Wenden Sie keine Verschlüsselung an.
Formate und geeignete Tools
Unter praktischen Gesichtspunkten richtet sich die Wahl des Containerformats in erster Linie nach
dem Betriebssystem des Nutzers. Windows-Nutzer werden eher ZIP-Archive generieren, in einer MacUmgebung hingegen wird in der Regel das Tar-Format bevorzugt.
Das Tar-Format bietet für die langfristige Aufbewahrung den Vorteil, dass es ein offen dokumentiertes
und nicht an einen Hersteller gebundenes Format ist.
Windows:
Format:
Empfohlenes Tool:
Mac:
Format:
Empfohlenes Tool.
2
.zip, unkomprimiert.
7-Zip 2
.tar
Keka 3
Oder mit Befehl „Tar“ auf der Kommandozeile
Kostenlos downloadbar auf http://www.7-zip.de/ (Zugriff am 03.03.2015). Kontaktieren Sie bitte Ihren Informatik Support.
Kostenlos downloadbar auf http://www.kekaosx.com/de/ (Zugriff am 03.03.2015). Kontaktieren Sie bitte Ihren Informatik
Support.
3
Stand: 18. Juni 2015
3/3