PEVIAR: Ein System zur migrationslosen digitalen Archivierung

Transcrição

PEVIAR: Ein System zur migrationslosen digitalen Archivierung
Migrationslose Archivierung
Digitaler Daten
Die Projekte Peviar und Monolith
Photokina Köln, 2008
Freitag, 26. September 2008
Universität Basel
Dr. Peter Fornaro
Digitale Datenwelle
Die digitale Revolution ist bereits Teil unserer Geschichte
2
Drei Problembereiche im digitale Archiv
• WordStar (CP/M)
• DisplayWrite (IBM)
• MacDraw (Apple)
• PS16 (ProTracker)
• CD-R Lebensdauer: 2-30
Jahre
• Magnetband: 30 Jahre
Speichermedium
Software
Format
Hardware für
den Zugriff
• SCSI
• Serial ATA
• ESDI
• Magneto-Optical Drive
3
03/30/2007
4
Wandel der Hardware
03/30/2007
5
Wandel der Hardware
03/30/2007
6
Wandel der Software
03/30/2007
7
Digitales Archiv? Nichts Neues!
• Digital bedeutet: „Mit diskreten Zeichen dargestellt“
S = {s1, s2, s3, ..., sn}; n ≥2
• Jeder Computer arbeitet digital: Mit einem
zweiwertigen „binären“ Zeichensatz
– S = {0,1}, S = {true,false}, S = {+ 5V,-5V}, S = {↑, ↓}
• Unser Alphabet ist allerdings auch digital => 26 diskrete
Zeichen!
Wie kann digital gespeicherte Information lange erhalten
bleiben?
8
Prinzipielle Ansätze
9
Weg 1
Durch automatische Migration der Daten
auf einem relativ kurzlebigen
Speichersystems
10
Beispiel Quastenflosser - „lebende Fossilien“
11
DNA (Deoxyribonucleic Acid) in Paaren = 2-bit Code
12
Migration in der IT
• Die korrekte Migration digitaler Daten ist ein
fehleranfälliger Prozess
• Die Konsistenz der Datenbestände muss überprüft
werden!
• Man darf den richtigen Zeitpunkt nicht verpassen
• Es entstehen wiederkehrende Kosten ohne
unmittelbaren Mehrwert
• Es ist keine „fire and forget“-Methode
• Migration ist teuer!
13
Migrationskosten in der IT
,($-($.*+('&&,/%$*0(+1+/(2&
)!!!"!#
!"#$%&
(!!!"!#
*+,-./#
'!!!"!#
01#23.-456+#
&!!!"!#
786-4.,#2,93:;#
%!!!"!#
784<#%!!=#
$!!!"!#
7:>>6-8#
!"!#
$"!#
%"!#
&"!#
'"!#
?-,;3@,@#
'()*'(+&
14
Weg 2
Archivierung mit einem möglichst
langlebigen Speichersystem, das mit
seltener oder gar keiner Migration
auskommt
15
Keilschrift
• Permanentes Medium:
gebrannter Ton
• “sichtbar”
• Syntax & Semantik
entschlüsselt (William
Henry Fox Talbot)
16
Anwendung in der IT
Datenträger
Klassisch
Computertechnik
Pergament, Papier
Lochstreifen,
Fotomaterial,
Datenformat
Interface
Latein
Rosetta-Storage
TIFF, AIFF
Griechisch
RTF, PDFA
Englisch
Auge (visuell)
ASCII, XML
Kamera
Scanner
17
xt
Mi
, Te
de
Co
it (
ke d)
hig Bil
dfä und
bri
Hy
kro
fi
Da lm a
ten ls s
trä tab
ge ile
r
r
Anwendung in der IT
Visuelles Interface
Anforderungen an das “visuelle”
Medium
•
•
•
•
•
•
Sehr stabil und langlebig
Hohe Datendichte
Einfache Verarbeitung auch grosser Mengen
Akzeptiert bei den Archivaren (!)
Leicht in grossen Mengen erhältlich
Preis
• => Photographischer Mikrofilm
19
Interface
Das Scannen von Bildern gehört zu den digitalen
Basistechnologien
Qualität
Prei
s
Zeit
20
KTI/CTI
• Peviar: Grundlagenforschung finanziert bis
2009 durch den Schweizerischen Nationalfonds
• Monolith: Produktentwicklung co-finanziert
durch das Bundesamt für Beruf, Bildung und
Technologie und der Fachlabor Gubler AG
21
PEVIAR
Speichermedium
Software
Format
Hardware für
den Zugriff
22
• Mikrofilm
ist bekannt
und sehr
stabil
• Preiswert
PEVIAR
•
– Untersuchen der Eignung von fotografischem
Material zur Speicherung binärer Daten
– Untersuchen innovativer Fehlerkorrekturverfahren zur Nutzung von höheren Alphabeten
als dem binären
– Entwicklung von „selbsterklärenden“
Kodierungen (Formatproblematik)
23
Digital Encoding
• Ein beliebiger Bit-Code (hier: eine TIFF Datei) wird in
Form eines 2D Barcode wiedergegeben
24
Vorteile eines Bitstreams auf Film
• Es können alle Arten digitaler Daten gespeichert
werden
– Text als Text, nicht als Bild (suchen und finden ohne OCR)
– Digitales Audio (kann nur in Form eines Codes abgelegt
werden)
– Bilder können in der digitalen Form auch nach Beschädigung
des Mediums vollständig rekonstruiert werden, Metadaten
und Farbprofile bleiben in der Datei integriert
– Beispiel Vektordaten
25
Visueller binärere Code
Beispiele Barcode
26
IBM1369 Photodigital Storage System
(PDSS), 1967
• Hohe Kapazität (1 TBit)
optischer Speicher auf
• Visueller,
photographischem Film
• Endete mit dem „magnetic recording“
27
PEVIAR beantwortet folgende Fragen
• Was ist die maximale Speicherdichte die auf
photographischen Materialien erreicht werden kann
• Welche Verfahren zur Fehlerkorrektur sind geeignet
um auf dem Mikrofilm angewendet zu werden
• Kann der Bitstream mit einem Alphabet gespeichert
werden das > binär ist (Nutzung von Graustufen)
28
MONOLITH
Speichermedium
Software
Format
Hardware für
den Zugriff
29
Ziel von MONOLITH
• Praxistaugliches Informationslayout
–Metadaten
–Technische Markierungen
–Such- und Findeinformationen
• Praxistaugliche Prozesse beim Schreiben und
Lesen
• Leistungssteigerung der Decoder und Encoder
Software
• Optimierung der Speicherdichte
• Anpassung an heutige Filmrekorder
30
Archivfiche
Hybrider Daten Film für die migrationslose Archivierung
31
Anwendungsfelder
• Revisionssicherung
– Datenarchivierung für eine bestimmte Zeit
(oft >> 10 Jahre)
– Zugriffswahrscheinlichkeit sehr gering!
– Migration nicht erwünscht, da teuer!
• Langzeitarchivierung
– Ideale Ergänzung zu bestehenden Lösungen zur
„desaster recovery“
– Reduziert die Kosten für eine n-te Serverlösung
32
Anwendungsfelder
• Wertvolle Einzelobjekte
– Verträge
– Urkunden
– Digitalisate von Kunstwerken
• Consumer Markt
– Sicherung von Bildarchiven
– Sicherung von Musiksammlungen
33
Kostenvergleich
,($-($.*+('&&,/%$*0(+1+/(2&
)!!!"!#
,%-%./01&,/)$%2.3&
*+,-./#
'!!!"!#
01#23.-456+#
&!!!"!#
786-4.,#2,93:;#
%!!!"!#
784<#%!!=#
$!!!"!#
7:>>6-8#
!"!#
$"!#
%"!#
&"!#
'()*'(+&
'"!#
'!!!"!#
&$!!"!#
?-,;3@,@#
!"#$%&
!"#$%&
(!!!"!#
)*+,-.#
&!!!"!#
/0#12-,345*#
%$!!"!#
675,3-+#1+829:#
%!!!"!#
673;#&!!<#
$!!"!#
69==5,7#
!"!#
%"!#
&"!#
'"!#
("!#
>,+:2?+?#
'()*'(+&
34
Kostenvergleich
.(-/-$0*'$1##234/*56*+,)*$
(&!!!"!#
(%!!!"!#
!"###$$%&'($
($!!!"!#
(!!!!"!#
'!!!"!#
&!!!"!#
%!!!"!#
$!!!"!#
!"!#
(#
$#
)#
%#
)*+,)*-$
*+#,-.#(!#/-0.#123.04-#1/12-5#
*+#,-.#(!#/-0.1#6373892:#
35
Speicherdichte Ausblick
• 35mm Rollmaterial
–9µm Punktgrösse
–Füllfaktor 0.9 (Randmarkierungen, ...)
–Redundanzfaktor 0.8 (ECC)
–Speicherplatz auf einer 600 Meter Rolle:
BW: 21 GByte Color: 53 GByte
• 105mm Fiche
–Speicherplatz auf einer Fiche:
BW: 18 MByte Color: 47 MByte
105 18µm:
C 12MB BW 4MB
35 18µm
C 0.35MB BW 1MB
36
Speicherdichte
• Ziel ist nicht das Speichern (Schreiben) einer
möglichst grossen Datenmenge
• Ziel ist es eine möglichst hohe Lesesicherheit für
einen zukünftigen Zugriff zu gewähren
• Eine zu hohe Datendichte erschwert das einfache
und sichere Rücklesen =>
Technologieunabhängigkeit
37
Speicherdichte
• Ziel der Archivierung ist nicht das Bereitstellen von
x-Terabyte
• Ziel ist das langfristige Erhalten von Datenobjekten
• Die zu archivierenden Datenobjekte sind z. B.:
– Textdokumente
– Audio
– Bilder
– Filme
1h Audio 16bit CDQualität:
300MByte
600 Seiten Text:
1.5 MByte
Bilder: Kompression
und nicht Bytes!
38
Key-Features auf einen Blick
•
Monolith ist weitgehend technologieunabhängig
•
Monolith kommt ohne Migration aus
•
Monolith erlaubt die Anwendung aller Werkzeuge der IT:
Fehlererkennung und -korrektur, digitale Signaturen
•
Monolith ist sehr langlebig
•
Monolith ist hybridfähig
•
Monolith ist unveränderbar
•
Monolith ist kostentransparent
39
Vielen Dank
Bei Fragen:
• www.iml.unibas.ch
• www.peviar.ch
• www.peviar.ch/monolith
• [email protected]
40