PEVIAR: Ein System zur migrationslosen digitalen Archivierung
Transcrição
PEVIAR: Ein System zur migrationslosen digitalen Archivierung
Migrationslose Archivierung Digitaler Daten Die Projekte Peviar und Monolith Photokina Köln, 2008 Freitag, 26. September 2008 Universität Basel Dr. Peter Fornaro Digitale Datenwelle Die digitale Revolution ist bereits Teil unserer Geschichte 2 Drei Problembereiche im digitale Archiv • WordStar (CP/M) • DisplayWrite (IBM) • MacDraw (Apple) • PS16 (ProTracker) • CD-R Lebensdauer: 2-30 Jahre • Magnetband: 30 Jahre Speichermedium Software Format Hardware für den Zugriff • SCSI • Serial ATA • ESDI • Magneto-Optical Drive 3 03/30/2007 4 Wandel der Hardware 03/30/2007 5 Wandel der Hardware 03/30/2007 6 Wandel der Software 03/30/2007 7 Digitales Archiv? Nichts Neues! • Digital bedeutet: „Mit diskreten Zeichen dargestellt“ S = {s1, s2, s3, ..., sn}; n ≥2 • Jeder Computer arbeitet digital: Mit einem zweiwertigen „binären“ Zeichensatz – S = {0,1}, S = {true,false}, S = {+ 5V,-5V}, S = {↑, ↓} • Unser Alphabet ist allerdings auch digital => 26 diskrete Zeichen! Wie kann digital gespeicherte Information lange erhalten bleiben? 8 Prinzipielle Ansätze 9 Weg 1 Durch automatische Migration der Daten auf einem relativ kurzlebigen Speichersystems 10 Beispiel Quastenflosser - „lebende Fossilien“ 11 DNA (Deoxyribonucleic Acid) in Paaren = 2-bit Code 12 Migration in der IT • Die korrekte Migration digitaler Daten ist ein fehleranfälliger Prozess • Die Konsistenz der Datenbestände muss überprüft werden! • Man darf den richtigen Zeitpunkt nicht verpassen • Es entstehen wiederkehrende Kosten ohne unmittelbaren Mehrwert • Es ist keine „fire and forget“-Methode • Migration ist teuer! 13 Migrationskosten in der IT ,($-($.*+('&&,/%$*0(+1+/(2& )!!!"!# !"#$%& (!!!"!# *+,-./# '!!!"!# 01#23.-456+# &!!!"!# 786-4.,#2,93:;# %!!!"!# 784<#%!!=# $!!!"!# 7:>>6-8# !"!# $"!# %"!# &"!# '"!# ?-,;3@,@# '()*'(+& 14 Weg 2 Archivierung mit einem möglichst langlebigen Speichersystem, das mit seltener oder gar keiner Migration auskommt 15 Keilschrift • Permanentes Medium: gebrannter Ton • “sichtbar” • Syntax & Semantik entschlüsselt (William Henry Fox Talbot) 16 Anwendung in der IT Datenträger Klassisch Computertechnik Pergament, Papier Lochstreifen, Fotomaterial, Datenformat Interface Latein Rosetta-Storage TIFF, AIFF Griechisch RTF, PDFA Englisch Auge (visuell) ASCII, XML Kamera Scanner 17 xt Mi , Te de Co it ( ke d) hig Bil dfä und bri Hy kro fi Da lm a ten ls s trä tab ge ile r r Anwendung in der IT Visuelles Interface Anforderungen an das “visuelle” Medium • • • • • • Sehr stabil und langlebig Hohe Datendichte Einfache Verarbeitung auch grosser Mengen Akzeptiert bei den Archivaren (!) Leicht in grossen Mengen erhältlich Preis • => Photographischer Mikrofilm 19 Interface Das Scannen von Bildern gehört zu den digitalen Basistechnologien Qualität Prei s Zeit 20 KTI/CTI • Peviar: Grundlagenforschung finanziert bis 2009 durch den Schweizerischen Nationalfonds • Monolith: Produktentwicklung co-finanziert durch das Bundesamt für Beruf, Bildung und Technologie und der Fachlabor Gubler AG 21 PEVIAR Speichermedium Software Format Hardware für den Zugriff 22 • Mikrofilm ist bekannt und sehr stabil • Preiswert PEVIAR • – Untersuchen der Eignung von fotografischem Material zur Speicherung binärer Daten – Untersuchen innovativer Fehlerkorrekturverfahren zur Nutzung von höheren Alphabeten als dem binären – Entwicklung von „selbsterklärenden“ Kodierungen (Formatproblematik) 23 Digital Encoding • Ein beliebiger Bit-Code (hier: eine TIFF Datei) wird in Form eines 2D Barcode wiedergegeben 24 Vorteile eines Bitstreams auf Film • Es können alle Arten digitaler Daten gespeichert werden – Text als Text, nicht als Bild (suchen und finden ohne OCR) – Digitales Audio (kann nur in Form eines Codes abgelegt werden) – Bilder können in der digitalen Form auch nach Beschädigung des Mediums vollständig rekonstruiert werden, Metadaten und Farbprofile bleiben in der Datei integriert – Beispiel Vektordaten 25 Visueller binärere Code Beispiele Barcode 26 IBM1369 Photodigital Storage System (PDSS), 1967 • Hohe Kapazität (1 TBit) optischer Speicher auf • Visueller, photographischem Film • Endete mit dem „magnetic recording“ 27 PEVIAR beantwortet folgende Fragen • Was ist die maximale Speicherdichte die auf photographischen Materialien erreicht werden kann • Welche Verfahren zur Fehlerkorrektur sind geeignet um auf dem Mikrofilm angewendet zu werden • Kann der Bitstream mit einem Alphabet gespeichert werden das > binär ist (Nutzung von Graustufen) 28 MONOLITH Speichermedium Software Format Hardware für den Zugriff 29 Ziel von MONOLITH • Praxistaugliches Informationslayout –Metadaten –Technische Markierungen –Such- und Findeinformationen • Praxistaugliche Prozesse beim Schreiben und Lesen • Leistungssteigerung der Decoder und Encoder Software • Optimierung der Speicherdichte • Anpassung an heutige Filmrekorder 30 Archivfiche Hybrider Daten Film für die migrationslose Archivierung 31 Anwendungsfelder • Revisionssicherung – Datenarchivierung für eine bestimmte Zeit (oft >> 10 Jahre) – Zugriffswahrscheinlichkeit sehr gering! – Migration nicht erwünscht, da teuer! • Langzeitarchivierung – Ideale Ergänzung zu bestehenden Lösungen zur „desaster recovery“ – Reduziert die Kosten für eine n-te Serverlösung 32 Anwendungsfelder • Wertvolle Einzelobjekte – Verträge – Urkunden – Digitalisate von Kunstwerken • Consumer Markt – Sicherung von Bildarchiven – Sicherung von Musiksammlungen 33 Kostenvergleich ,($-($.*+('&&,/%$*0(+1+/(2& )!!!"!# ,%-%./01&,/)$%2.3& *+,-./# '!!!"!# 01#23.-456+# &!!!"!# 786-4.,#2,93:;# %!!!"!# 784<#%!!=# $!!!"!# 7:>>6-8# !"!# $"!# %"!# &"!# '()*'(+& '"!# '!!!"!# &$!!"!# ?-,;3@,@# !"#$%& !"#$%& (!!!"!# )*+,-.# &!!!"!# /0#12-,345*# %$!!"!# 675,3-+#1+829:# %!!!"!# 673;#&!!<# $!!"!# 69==5,7# !"!# %"!# &"!# '"!# ("!# >,+:2?+?# '()*'(+& 34 Kostenvergleich .(-/-$0*'$1##234/*56*+,)*$ (&!!!"!# (%!!!"!# !"###$$%&'($ ($!!!"!# (!!!!"!# '!!!"!# &!!!"!# %!!!"!# $!!!"!# !"!# (# $# )# %# )*+,)*-$ *+#,-.#(!#/-0.#123.04-#1/12-5# *+#,-.#(!#/-0.1#6373892:# 35 Speicherdichte Ausblick • 35mm Rollmaterial –9µm Punktgrösse –Füllfaktor 0.9 (Randmarkierungen, ...) –Redundanzfaktor 0.8 (ECC) –Speicherplatz auf einer 600 Meter Rolle: BW: 21 GByte Color: 53 GByte • 105mm Fiche –Speicherplatz auf einer Fiche: BW: 18 MByte Color: 47 MByte 105 18µm: C 12MB BW 4MB 35 18µm C 0.35MB BW 1MB 36 Speicherdichte • Ziel ist nicht das Speichern (Schreiben) einer möglichst grossen Datenmenge • Ziel ist es eine möglichst hohe Lesesicherheit für einen zukünftigen Zugriff zu gewähren • Eine zu hohe Datendichte erschwert das einfache und sichere Rücklesen => Technologieunabhängigkeit 37 Speicherdichte • Ziel der Archivierung ist nicht das Bereitstellen von x-Terabyte • Ziel ist das langfristige Erhalten von Datenobjekten • Die zu archivierenden Datenobjekte sind z. B.: – Textdokumente – Audio – Bilder – Filme 1h Audio 16bit CDQualität: 300MByte 600 Seiten Text: 1.5 MByte Bilder: Kompression und nicht Bytes! 38 Key-Features auf einen Blick • Monolith ist weitgehend technologieunabhängig • Monolith kommt ohne Migration aus • Monolith erlaubt die Anwendung aller Werkzeuge der IT: Fehlererkennung und -korrektur, digitale Signaturen • Monolith ist sehr langlebig • Monolith ist hybridfähig • Monolith ist unveränderbar • Monolith ist kostentransparent 39 Vielen Dank Bei Fragen: • www.iml.unibas.ch • www.peviar.ch • www.peviar.ch/monolith • [email protected] 40