Seite als PDF downloaden - Max-Planck

Transcrição

Seite als PDF downloaden - Max-Planck
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
Computergestützte Displays: Mehr wahrgenommene 2D- und 3DDetails als die Physik erlaubt
Perceptual displays: exceeding physical limitations and improving
apparent qualities
Myszkow ski, Karol; Ritschel, Tobias
Max-Planck-Institut für Informatik, Saarbrücken
Korrespondierender Autor
E-Mail: [email protected]
Zusammenfassung
W ir beschreiben w ie Effekte der menschlichen Wahrnehmung genutzt w erden können um die physikalischen
Einschränkungen von Bildschirmen zu überw inden und räumliche Details über das scheinbar physikalisch
Mögliche hinaus zu reproduzieren. Zuerst w ird ein Verfahren zur Darstellung von Bilddetails die kleiner als
Bildschirmpixel sind vorgestellt. Danach gehen w ir auf die Darstellung von Details in 3D-Displays ein. Schließlich
präsentieren w ir „rückw ärtskompatibles” Stereo, das gleichzeitig 3D-Darstellung beim Verw enden von
Stereobrillen und klassische 2D-Darstellung ohne Stereobrille ermöglicht.
Summary
In this report, w e focus on the exploitation of perceptual effects to help overcome the physical limitations of
display devices in order to enhance apparent image qualities. First, w e present apparent display resolution
enhancement beyond the physical resolution of display pixels. Then, w e discuss various aspects of stereo
three-dimensional (S3D) displays that lead to a better control over reproduced depth. Finally, w e present an
image processing solution, w hich enables us to see S3D content using any type of stereo glasses and
traditional 2D content in glasses-free view ing simultaneously.
Einleitung
Existierende Displaygeräte w eisen eine Reihe von technischen Einschränkungen auf, die eine realistische
Darstellung von Inhalten erschw eren. Zum Beispiel stimmt die kontinuierliche Natur der räumlichen und
zeitlichen Informationen nicht direkt mit den diskreten Begriffen „Pixel” und „Bildw iederholrate” überein. Das
menschliche Sehsystem hat seine eigenen Grenzen, die die Anforderungen an Displaygeräte zum Teil
verringern.
Beispielsw eise
begrenzen
die
Dichte
der
Photorezeptoren
in
der
Netzhaut
und
die
Unvollkommenheiten der Augenoptik die räumliche Auflösung der Details, die w ahrgenommen w erden können.
Die Flimmer-Grenzfrequenz (Critical Flicker Frequency – CFF) sorgt dafür, dass zeitliche Veränderung über 60 Hz
nicht mehr zu unterscheiden sind. Alle diese Beschränkungen des HVS (Human Visual System) w erden beim
Konzipieren von Anzeigegeräten berücksichtigt. Sie zeigen aber immer noch deutliche Defizite bezüglich des
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
1/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
reproduzierbaren Kontrasts, der Helligkeit und der räumlichen Auflösung und sind somit den Fähigkeiten des
HVS unterlegen. Zusätzlich schaffen unglückliche Wechselw irkungen technischer und biologischer Aspekte
neue Probleme, die unter realen Beobachtungsbedingungen nicht bekannt sind. Zum Beispiel ist der
Tiefenbereich, der in 3D-Stereodisplays bequem betrachtet w erden kann, durch den Konflikt zw ischen der auf
dem Bildschirm eingestellten Augenakkommodation und der von Tiefe getriebener Augapfelkonvergenz
beschränkt: Auch w enn ein 3D-Display einen Gegenstand 20 cm vor dem Display erscheinen lässt, fokussiert
die Linse immer noch die Tiefe des Displays selbst.
In der Arbeitsgruppe „Computergrafik” am Max-Planck-Institut für Informatik w ird an der Bildw ahrnehmung
sow ie an der Entw icklung von Abbildungsalgorithmen mit eingebetteten Computermodellen des menschlichen
Sehsystems (HVS) geforscht. Auf diese Weise können Recheneffizienz und Bildqualität, w ie sie ein
menschlicher
Beobachter
w ahrnimmt,
erheblich
verbessert
w erden.
In
aktuellen
Forschungsarbeiten
konzentrierten w ir uns auf die Nutzung von Wahrnehmungseffekten, um die physikalischen Grenzen der
Anzeigegeräte zu überw inden und die w ahrgenommene Bildqualität zu verbessern. Dazu forschten w ir im
Bereich des „Tone Mappings” von High Dynamic Range (HDR)-Bildern, um w ahrgenommenen Kontrast und
Helligkeit zu verbessern [1]. Im vorliegenden Bericht konzentrieren w ir uns auf zw ei w eitere w ichtige Aspekte
der Bildqualität: die Verbesserung auflösbarer Bilddetails jenseits der physischen Pixelauflösung und die
Optimierung der w ahrgenommenen Tiefe auf 3D-Stereodisplays. Diese Entw icklungen betrachten w ir als einen
Beitrag zu einem neu entstehenden Gebiet namens „Computational Display”.
Apparent Resolution Enhancement: Verbesserung wahrgenommener Auflösung
Zw ischen der räumlichen Auflösung einer Kamera und der Anzahl von Pixeln, die tatsächlich auf einem
Bildschirm gezeigt w erden können, besteht ein erheblicher Unterschied: Ein Bild enthält w esentlich mehr
Informationen. Des Weiteren w ird unter den typischen Betrachtungsbedingungen jedes Pixel von einer Anzahl
von Photorezeptoren im fovealen Bereich der Netzhaut abgebildet (mehr als zehn Photorezeptoren pro Pixel
für ein High-Definition (HD)-Desktop-Bildschirm, aus einer Entfernung von 50 cm gesehen). Dies bedeutet, dass
potenziell alle diese Photorezeptoren Bilddetails w ahrnehmen, die aufgrund der begrenzten Pixelauflösung
nicht gezeigt w erden.
A bb.1: Die Abbildung ze igt dre i Be ispie le m it
Auflösungsve rbe sse rung. Die e rste n dre i Spa lte n ze ige n im
O ptim ie rungsproze ss e rha lte ne Te ilbilde r. Die vie rte Spa lte
(inte grie rt) ze igt die Sim ula tion de r Bilde r wie sie a uf de r
Ne tzha ut e ntste he n soba ld die dre i Te ilbilde r a uf e ine m
Displa y m it hohe r Bildwie de rholra te a nge ze igt we rde n. Die
be ide n le tzte n Spa lte n ve rgle iche n unse re m it e ine r
he rk öm m liche n Me thode (La nczos) sowie de m origina lhocha ufge löste n Bild. Es ist zu be a chte n, da ss, obwohl die
Auflösung dre i Ma l re duzie rt wurde , unse r Ve rfa hre n in de r
La ge ist, fe ine re De ta ils wie de rzuge be n.
© Ma x -P la nck -Institut für Inform a tik
W ir nutzen
zw ei Eigenschaften
© 2014 Max-Planck-Gesellschaft
des
HVS, um die
w ahrnehmbare
w w w .mpg.de
Auflösung
zu
verbessern: glatte
2/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
Augenfolgebew egung (Smooth Pursuit Eye Motion – SPEM) und zeitliche Integration des Signals durch
Photorezeptoren [2]. SPEM w ird unw illentlich und mühelos vom HVS ausgelöst, um das sich bew egende Objekt
im Fokus zu halten, das die visuelle Aufmerksamkeit im mittleren Bereich der Fovea an sich zieht (dort, w o die
Auflösung der Photorezeptoren am höchsten ist). Bemerkensw erterw eise macht es die hohe Präzision der
SPEM möglich, fein strukturierte Details des sich bew egenden Objekts aufzulösen, die sonst als unscharf
w ahrgenommen w erden w ürden. Signal-Integration ist ein w ichtiger Faktor, um durch die Reduzierung des
neuralen Rauschens und des Photonenrauschens im HVS die Photorezeptor-Antw ort zu stabilisieren, w elches
auch die Grenzen der w ahrnehmbaren Flimmer-Grenzfrequenz (CFF) aufw eist. Es zeigt sich, dass die CFF für
kleine Strukturen (w enige Pixel) auf dem Bildschirm nur 40 Hz beträgt. Dies bedeutet, ein Display mit einer
Bildw iederholfrequenz von 120 Hz kann ohne Flackern drei verschiedene Einzelbilder anzeigen. W ir nutzen
diese Beobachtung und zerlegen die hohe Auflösung des Input-Bildes in drei Einzelbilder, die optimiert und
aufeinanderfolgend angezeigt w erden und die bei bekannter SPEM, ein unterschiedliches integriertes Signal
für jeden Photorezeptor ergeben. W ie in Abbildung 1 zu sehen ist, sind solche zerlegten Einzelbilder von
hohem Kontrast und enthalten eine Vielzahl räumlicher Details. Indem w ir von einem einfachen Modell des
Photorezeptor-Layouts ausgehen, stellen w ir sicher, dass jeder Photorezeptor ein Signal integriert, das einem
gegebenen Pixel im hochauflösenden Eingangsbild entspricht. Es ist zu beachten, dass dies nur bei sich
bew egenden Mustern auf dem Bild möglich ist, die durch SPEM verfolgt w erden. Für ein statisches Bild w erden
alle Photorezeptoren auf die gleichen Displaypixel projiziert und integrieren genau das gleiche Signal, w as
keine scheinbare Auflösungsverbesserung bew irkt. Dies ist jedoch kein Problem für Videos mit bew egten
Objekten oder scrollendem Text (z. B. Börsenticker), bei denen die natürliche Bew egung innerhalb der Szene
genutzt w ird.
Durch die Entw icklung von Displays mit einer noch höheren Bildw iederholfrequenz als 120 Hz, z. B. mit OLEDTechnologie, können mehr als drei Einzelbilder zeitlich integriert w erden, w as die Menge der erkennbaren
Details noch w eiter erhöht.
Ein Modell menschlicher Stereowahrnehmung
Die Darstellung von Bildern in 3D hat in jüngster Zeit erneut viel Beachtung gefunden. Obw ohl 3D-Filme, 3DSpiele oder die ersten 3D-TV-Kanäle für eine Vielzahl von Kunden verfügbar sind, bleiben noch viele
Herausforderungen, w enn
optisch
überzeugende
Stereoinhalte
produziert
w erden
sollen. Binokulare
Disparität, einer der stärksten Tiefenreize, kann flache Bilder auf einem Bildschirm in deutlich realistischere
dreidimensionale Szenen verw andeln. Daher ist es w ichtig zu verstehen, w ie das HVS physikalische
Disparitätsw erte auf Sinneseindrücke abbildet.
W ir haben auf der Grundlage einer Reihe von psycho-physischen Messungen ein Wahrnehmungsmodell für
binokulare Disparität entw ickelt. W ir untersuchten die Empfindlichkeit des Sehsystems, um Tiefendifferenzen
für eine Vielzahl von Abstufungen und räumlichen Veränderungen zu unterscheiden [3]. Das daraus
resultierende Modell verw andelt physische Einheiten in Einheiten menschlicher Wahrnehmung, sogenannte
„kleinste unterscheidbare Einheiten” (Just-Noticable Differences − JNDs). Die JND-skalierten Unterschiede
entsprechen den tatsächlich gesehenen Tiefenunterschieden. Unterschiede unter 1 JND können nicht
w ahrgenommen w erden. Unser Modell ist invertierbar und kann verw endet w erden, um physikalische und
psychologische
Einheiten in beide
Richtungen umzurechnen. Praktischerw eise
erlaubt uns
dies, alle
Manipulationen von Stereobildern in einem w ahrnehmungslinearisierten Raum durchzuführen und dann die
entsprechenden physischen W erte abzuleiten.
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
3/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
A bb. 2: Eine a us unse re m Mode ll a bge le ite te Me trik , die die
wa hrge nom m e ne Diffe re nz (re chts) zwische n O rigina l und
ve rä nde rte r binok ula re r Dispa ritä t (Mitte ) vorhe rsa gt.
© Ma x -P la nck -Institut für Inform a tik
Eine w ichtige Anw endung unseres Modelles ist ein sinnvoller Vergleich von Stereobildern bezüglich der
w ahrgenommenen Tiefe (Abb. 2). Mit einer originalen und einer bearbeiteten Disparitätskarte, berechnet das
Modell eine Karte der pro Pixel w ahrgenommenen Stereounterschiede in JND (skaliert). Der Umfang
binokularer Disparität muss
dabei begrenzt w erden, um den Akkommodation-Konvergenz-Konflikt zu
vermeiden. Dazu kann unsere Metrik die Anpassung der Stereobilder steuern, sodass w ahrgenommene
Tiefen-Verzerrungen lokal minimiert w erden. Eine w eitere mögliche Anw endung unseres Modells ist die
verlustbehaftete Kompression zur schnellen Übertragung und Speicherung. Hierzu w erden die Anteile des
Stereobildes, die unter 1 JND fallen, ohne w ahrnehmbaren Verlust entfernt und die Datenrate dadurch
verringert.
W ir erhalten verschiedene Instanzen unseres Modells, indem w ir die Empfindlichkeitsmessungen für
verschiedene S3D-Technologien w ie Shutter-, Polarisations-und Anaglyphen-Brillen, aber auch für brillenfreie
autostereoskopische Displays, durchführen. Auf diese Weise kann man Inhalte gezielt auf jede dieser
Anzeigetechnologien zuschneiden. Da sich Stereosehen von Person zu Person stark unterscheiden kann, kann
unser Modell zusätzlich personalisiert w erden, um Inhalte auf das Stereosehen bestimmter Personen
abzustimmen.
W ir haben unser Modell so erw eitert, dass es auch RGB-Bildinhalte einbezieht, w as eine noch stärkere
Bearbeitung
in
Bildbereichen
mit
geringerem
Kontrast
ermöglicht
[4].
Dies
ist
in
Bildern
mit
Tiefenschärfeeffekten (Kamerafokus), Bew egungsunschärfe oder Szenendarstellungen bei Nacht (in der die
Tiefenw ahrnehmung schw ächer ist) durchaus üblich.
Rückwärtskompatibles 3D-Stereo
Da ein 3D-Eindruck ggf. von manchen Betrachtern nicht gew ünscht ist, ergibt sich ein praktisches Problem: W ie
können Inhalte in traditionellem 2D und gleichzeitig in 3D auf dem gleichen Gerät dargestellt w erden? W ir
haben ein „rückw ärtskompatibles” 3D-Bearbeitungsverfahren entw ickelt. Dazu w ird binokulares Stereo so
minimiert, dass die ohne 3D-Brille gesehenen Inhalte keine erheblichen Bildstörungen aufw eisen, aber ein 3DEindruck
mit
3D-Brille
w ahrgenommen
w ird
[3]. Unsere
Technik
stützt
sich
ausschließlich
auf
die
Bildverarbeitung und funktioniert für alle vorhandenen 3D-Brillen-Technologien.
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
4/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
A bb. 3: Die C ornswe e t-Illusion, fa rba na glyphisch da rge ste llt.
Oben (Ana glyphste re o): Ein Kre is m it Tie fe durch e chte
physik a lische Dispa ritä t und sche inba re r Tie fe a ufgrund de r
Ste re ova ria nte de r C ornswe e t-Illusion. Unten: Die
e ntspre che nde n Tie fe nprofile und de re n wa hrge nom m e ne
Form e n. De r dre idim e nsiona le Be re ich ze igt die
Ge sa m tdispa ritä t, die m it C ornswe e t P rofile n de utlich k le ine r
ist.
© Ma x -P la nck -Institut für Inform a tik
Die rückw ärtskompatible S3D-Technik nutzt die Stereovariante der Cornsw eet-Illusion, die sonst nur für
Darstellung von Helligkeiten bekannt ist (Abb. 3). W ir fügen Cornsw eet-Profile an Tiefendiskontinuitäten ein
(an den Silhouetten der Objekte in verschiedenen Tiefen), w as im Wesentlichen eine w inzige Verschiebung
zw ischen den Bildern des linken und des rechten Auges, die aber dann allmählich in den Normalzustand, w ie
bei den traditionellen 2D-Bildern, ausläuft. Effektiv bedeutet dies, mit Ausnahme der Tiefendiskontinuität
verschw indet die Disparität im gesamten Bild. Durch neuronale Füllmechanismen (Fill-in) nimmt das HVS an,
dass die in der Tiefendiskontinuität eingeführte Disparität sich in beiden Richtungen in Bezug auf die
Diskontinuität vermehrt und interpretiert sie als Tiefendifferenz zw ischen den durch diese Tiefendiskontinuität
getrennten Objekten.
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
5/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
A bb. 4: R ück wä rtsk om pa tible s Ana glyphste re o (obe n) bie te t
gute Tie fe nwie de rga be qua litä t. Da s Bild sie ht de m
Sta nda rdste re obild ä hnlich. Die ge ringe Me nge a n Dispa ritä t
führt zu e ine r re la tiv hohe n Bildqua litä t a uch ohne die
Ve rwe ndung e ine r Ste re obrille . Um m it de r tra ditione lle n
Me thode e ine ä quiva le nte Tie fe nwie de rga be qua litä t zu
e rre iche n, ist de utlich m e hr Dispa ritä t notwe ndig (unte n). In
die se m Fa ll ve rschle chte rt sich da s a na glyphe Ste re obild ohne
3D-Brille signifik a nt.
© Ma x -P la nck -Institut für Inform a tik , The dra gon m ode l
courte sy of the Sta nford C om pute r Gra phics La bora tory
Durch die konsequente Anw endung des Cornsw eet-Profilen an benachbarten Tiefendiskontinuitäten, kann
man diese „kaskadieren”, sodass sich die w ahrnehmbaren Tiefenunterschiede aufaddieren, w as zu einem
noch stärkeren Tiefeneindruck führt. Bei der Standard-3D-Methode müssen alle solchen Disparitäten
akkumuliert w erden. Dies erhöht die Verschiebungen zw ischen den Bildern des linken und des rechten Auges,
w as
für
einen
Betrachter
ohne
3D-Brille
störend
w ird
(Abb.
4).
Obw ohl
unsere
Technik
den
Gesamttiefeneindruck auch reduziert, ist der erhaltene 3D-Effekt stark und gleichmäßig für den Betrachter mit
Brille, w ährend gleichzeitig Bildstörungen für den Betrachter ohne Brille minimiert w erden (Abb. 4) .
W ir experimentierten mit der Cornsw eet-Illusion als Mittel zur Verbesserung des lokalen Tiefeneindrucks im
Rahmen der regulären 3D-Darstellung. W ie w ir besprochen haben, ist deren Reichw eite typischerw eise stark
komprimiert, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. W ir w aren in der Lage den
verlorenen
Tiefeneindruck
teilw eise
w iederherzustellen,
indem
Cornsw eet-Profile
zu
bestehenden
(komprimierten) Disparitäten hinzugefügt w erden [5].
Hinw eis: Für Betrachtung der Abbildungen 2-4 empfehlen w ir eine Anaglyphen-Brille für den besten Effekt
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
6/7
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr
w ahrgenommene 2D- und 3D-Details als die Physik erlaubt
(bitte die Zoom-Version der Bilder verw enden).
Literaturhinweise
[1] Reinhard, E.; Ward, G.; Debevec, P.; Pattanaik, S.; Heidrich, W.; Myszkowski, K.
High Dynamic Range Imaging
Morgan Kaufmann Publishers, 2nd Edition, San Francisco, 2010
[2] Didyk, P.; Eisemann, E.; Ritschel, T.; Myszkowski, K.; Seidel, H.-P.
Apparent Display Resolution Enhancement for Moving Images
ACM Transactions on Graphics 29(4), 113 (2010); Proceedings of ACM SIGGRAPH 2010
[3] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Perceptual Model for Disparity
ACM Transactions on Graphics 30(4), 42 (2011); Proceedings of ACM SIGGRAPH 2011
[4] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Luminance-Contrast-Aware Disparity Model and Applications
ACM Transactions on Graphics 31(6), 184 (2012); Proceedings of ACM SIGGRAPH Asia 2012
[5] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
Apparent Stereo: The Cornsweet Illusion Can Enhance Perceived Depth
Human Vision and Electronic Imaging XVII, IS&TSPIE’s Symposium on Electronic Imaging, pages 1–12,
Burlingame, CA (2012)
© 2014 Max-Planck-Gesellschaft
w w w .mpg.de
7/7