Seite als PDF downloaden - Max-Planck
Transcrição
Seite als PDF downloaden - Max-Planck
Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt Computergestützte Displays: Mehr wahrgenommene 2D- und 3DDetails als die Physik erlaubt Perceptual displays: exceeding physical limitations and improving apparent qualities Myszkow ski, Karol; Ritschel, Tobias Max-Planck-Institut für Informatik, Saarbrücken Korrespondierender Autor E-Mail: [email protected] Zusammenfassung W ir beschreiben w ie Effekte der menschlichen Wahrnehmung genutzt w erden können um die physikalischen Einschränkungen von Bildschirmen zu überw inden und räumliche Details über das scheinbar physikalisch Mögliche hinaus zu reproduzieren. Zuerst w ird ein Verfahren zur Darstellung von Bilddetails die kleiner als Bildschirmpixel sind vorgestellt. Danach gehen w ir auf die Darstellung von Details in 3D-Displays ein. Schließlich präsentieren w ir „rückw ärtskompatibles” Stereo, das gleichzeitig 3D-Darstellung beim Verw enden von Stereobrillen und klassische 2D-Darstellung ohne Stereobrille ermöglicht. Summary In this report, w e focus on the exploitation of perceptual effects to help overcome the physical limitations of display devices in order to enhance apparent image qualities. First, w e present apparent display resolution enhancement beyond the physical resolution of display pixels. Then, w e discuss various aspects of stereo three-dimensional (S3D) displays that lead to a better control over reproduced depth. Finally, w e present an image processing solution, w hich enables us to see S3D content using any type of stereo glasses and traditional 2D content in glasses-free view ing simultaneously. Einleitung Existierende Displaygeräte w eisen eine Reihe von technischen Einschränkungen auf, die eine realistische Darstellung von Inhalten erschw eren. Zum Beispiel stimmt die kontinuierliche Natur der räumlichen und zeitlichen Informationen nicht direkt mit den diskreten Begriffen „Pixel” und „Bildw iederholrate” überein. Das menschliche Sehsystem hat seine eigenen Grenzen, die die Anforderungen an Displaygeräte zum Teil verringern. Beispielsw eise begrenzen die Dichte der Photorezeptoren in der Netzhaut und die Unvollkommenheiten der Augenoptik die räumliche Auflösung der Details, die w ahrgenommen w erden können. Die Flimmer-Grenzfrequenz (Critical Flicker Frequency – CFF) sorgt dafür, dass zeitliche Veränderung über 60 Hz nicht mehr zu unterscheiden sind. Alle diese Beschränkungen des HVS (Human Visual System) w erden beim Konzipieren von Anzeigegeräten berücksichtigt. Sie zeigen aber immer noch deutliche Defizite bezüglich des © 2014 Max-Planck-Gesellschaft w w w .mpg.de 1/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt reproduzierbaren Kontrasts, der Helligkeit und der räumlichen Auflösung und sind somit den Fähigkeiten des HVS unterlegen. Zusätzlich schaffen unglückliche Wechselw irkungen technischer und biologischer Aspekte neue Probleme, die unter realen Beobachtungsbedingungen nicht bekannt sind. Zum Beispiel ist der Tiefenbereich, der in 3D-Stereodisplays bequem betrachtet w erden kann, durch den Konflikt zw ischen der auf dem Bildschirm eingestellten Augenakkommodation und der von Tiefe getriebener Augapfelkonvergenz beschränkt: Auch w enn ein 3D-Display einen Gegenstand 20 cm vor dem Display erscheinen lässt, fokussiert die Linse immer noch die Tiefe des Displays selbst. In der Arbeitsgruppe „Computergrafik” am Max-Planck-Institut für Informatik w ird an der Bildw ahrnehmung sow ie an der Entw icklung von Abbildungsalgorithmen mit eingebetteten Computermodellen des menschlichen Sehsystems (HVS) geforscht. Auf diese Weise können Recheneffizienz und Bildqualität, w ie sie ein menschlicher Beobachter w ahrnimmt, erheblich verbessert w erden. In aktuellen Forschungsarbeiten konzentrierten w ir uns auf die Nutzung von Wahrnehmungseffekten, um die physikalischen Grenzen der Anzeigegeräte zu überw inden und die w ahrgenommene Bildqualität zu verbessern. Dazu forschten w ir im Bereich des „Tone Mappings” von High Dynamic Range (HDR)-Bildern, um w ahrgenommenen Kontrast und Helligkeit zu verbessern [1]. Im vorliegenden Bericht konzentrieren w ir uns auf zw ei w eitere w ichtige Aspekte der Bildqualität: die Verbesserung auflösbarer Bilddetails jenseits der physischen Pixelauflösung und die Optimierung der w ahrgenommenen Tiefe auf 3D-Stereodisplays. Diese Entw icklungen betrachten w ir als einen Beitrag zu einem neu entstehenden Gebiet namens „Computational Display”. Apparent Resolution Enhancement: Verbesserung wahrgenommener Auflösung Zw ischen der räumlichen Auflösung einer Kamera und der Anzahl von Pixeln, die tatsächlich auf einem Bildschirm gezeigt w erden können, besteht ein erheblicher Unterschied: Ein Bild enthält w esentlich mehr Informationen. Des Weiteren w ird unter den typischen Betrachtungsbedingungen jedes Pixel von einer Anzahl von Photorezeptoren im fovealen Bereich der Netzhaut abgebildet (mehr als zehn Photorezeptoren pro Pixel für ein High-Definition (HD)-Desktop-Bildschirm, aus einer Entfernung von 50 cm gesehen). Dies bedeutet, dass potenziell alle diese Photorezeptoren Bilddetails w ahrnehmen, die aufgrund der begrenzten Pixelauflösung nicht gezeigt w erden. A bb.1: Die Abbildung ze igt dre i Be ispie le m it Auflösungsve rbe sse rung. Die e rste n dre i Spa lte n ze ige n im O ptim ie rungsproze ss e rha lte ne Te ilbilde r. Die vie rte Spa lte (inte grie rt) ze igt die Sim ula tion de r Bilde r wie sie a uf de r Ne tzha ut e ntste he n soba ld die dre i Te ilbilde r a uf e ine m Displa y m it hohe r Bildwie de rholra te a nge ze igt we rde n. Die be ide n le tzte n Spa lte n ve rgle iche n unse re m it e ine r he rk öm m liche n Me thode (La nczos) sowie de m origina lhocha ufge löste n Bild. Es ist zu be a chte n, da ss, obwohl die Auflösung dre i Ma l re duzie rt wurde , unse r Ve rfa hre n in de r La ge ist, fe ine re De ta ils wie de rzuge be n. © Ma x -P la nck -Institut für Inform a tik W ir nutzen zw ei Eigenschaften © 2014 Max-Planck-Gesellschaft des HVS, um die w ahrnehmbare w w w .mpg.de Auflösung zu verbessern: glatte 2/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt Augenfolgebew egung (Smooth Pursuit Eye Motion – SPEM) und zeitliche Integration des Signals durch Photorezeptoren [2]. SPEM w ird unw illentlich und mühelos vom HVS ausgelöst, um das sich bew egende Objekt im Fokus zu halten, das die visuelle Aufmerksamkeit im mittleren Bereich der Fovea an sich zieht (dort, w o die Auflösung der Photorezeptoren am höchsten ist). Bemerkensw erterw eise macht es die hohe Präzision der SPEM möglich, fein strukturierte Details des sich bew egenden Objekts aufzulösen, die sonst als unscharf w ahrgenommen w erden w ürden. Signal-Integration ist ein w ichtiger Faktor, um durch die Reduzierung des neuralen Rauschens und des Photonenrauschens im HVS die Photorezeptor-Antw ort zu stabilisieren, w elches auch die Grenzen der w ahrnehmbaren Flimmer-Grenzfrequenz (CFF) aufw eist. Es zeigt sich, dass die CFF für kleine Strukturen (w enige Pixel) auf dem Bildschirm nur 40 Hz beträgt. Dies bedeutet, ein Display mit einer Bildw iederholfrequenz von 120 Hz kann ohne Flackern drei verschiedene Einzelbilder anzeigen. W ir nutzen diese Beobachtung und zerlegen die hohe Auflösung des Input-Bildes in drei Einzelbilder, die optimiert und aufeinanderfolgend angezeigt w erden und die bei bekannter SPEM, ein unterschiedliches integriertes Signal für jeden Photorezeptor ergeben. W ie in Abbildung 1 zu sehen ist, sind solche zerlegten Einzelbilder von hohem Kontrast und enthalten eine Vielzahl räumlicher Details. Indem w ir von einem einfachen Modell des Photorezeptor-Layouts ausgehen, stellen w ir sicher, dass jeder Photorezeptor ein Signal integriert, das einem gegebenen Pixel im hochauflösenden Eingangsbild entspricht. Es ist zu beachten, dass dies nur bei sich bew egenden Mustern auf dem Bild möglich ist, die durch SPEM verfolgt w erden. Für ein statisches Bild w erden alle Photorezeptoren auf die gleichen Displaypixel projiziert und integrieren genau das gleiche Signal, w as keine scheinbare Auflösungsverbesserung bew irkt. Dies ist jedoch kein Problem für Videos mit bew egten Objekten oder scrollendem Text (z. B. Börsenticker), bei denen die natürliche Bew egung innerhalb der Szene genutzt w ird. Durch die Entw icklung von Displays mit einer noch höheren Bildw iederholfrequenz als 120 Hz, z. B. mit OLEDTechnologie, können mehr als drei Einzelbilder zeitlich integriert w erden, w as die Menge der erkennbaren Details noch w eiter erhöht. Ein Modell menschlicher Stereowahrnehmung Die Darstellung von Bildern in 3D hat in jüngster Zeit erneut viel Beachtung gefunden. Obw ohl 3D-Filme, 3DSpiele oder die ersten 3D-TV-Kanäle für eine Vielzahl von Kunden verfügbar sind, bleiben noch viele Herausforderungen, w enn optisch überzeugende Stereoinhalte produziert w erden sollen. Binokulare Disparität, einer der stärksten Tiefenreize, kann flache Bilder auf einem Bildschirm in deutlich realistischere dreidimensionale Szenen verw andeln. Daher ist es w ichtig zu verstehen, w ie das HVS physikalische Disparitätsw erte auf Sinneseindrücke abbildet. W ir haben auf der Grundlage einer Reihe von psycho-physischen Messungen ein Wahrnehmungsmodell für binokulare Disparität entw ickelt. W ir untersuchten die Empfindlichkeit des Sehsystems, um Tiefendifferenzen für eine Vielzahl von Abstufungen und räumlichen Veränderungen zu unterscheiden [3]. Das daraus resultierende Modell verw andelt physische Einheiten in Einheiten menschlicher Wahrnehmung, sogenannte „kleinste unterscheidbare Einheiten” (Just-Noticable Differences − JNDs). Die JND-skalierten Unterschiede entsprechen den tatsächlich gesehenen Tiefenunterschieden. Unterschiede unter 1 JND können nicht w ahrgenommen w erden. Unser Modell ist invertierbar und kann verw endet w erden, um physikalische und psychologische Einheiten in beide Richtungen umzurechnen. Praktischerw eise erlaubt uns dies, alle Manipulationen von Stereobildern in einem w ahrnehmungslinearisierten Raum durchzuführen und dann die entsprechenden physischen W erte abzuleiten. © 2014 Max-Planck-Gesellschaft w w w .mpg.de 3/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt A bb. 2: Eine a us unse re m Mode ll a bge le ite te Me trik , die die wa hrge nom m e ne Diffe re nz (re chts) zwische n O rigina l und ve rä nde rte r binok ula re r Dispa ritä t (Mitte ) vorhe rsa gt. © Ma x -P la nck -Institut für Inform a tik Eine w ichtige Anw endung unseres Modelles ist ein sinnvoller Vergleich von Stereobildern bezüglich der w ahrgenommenen Tiefe (Abb. 2). Mit einer originalen und einer bearbeiteten Disparitätskarte, berechnet das Modell eine Karte der pro Pixel w ahrgenommenen Stereounterschiede in JND (skaliert). Der Umfang binokularer Disparität muss dabei begrenzt w erden, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. Dazu kann unsere Metrik die Anpassung der Stereobilder steuern, sodass w ahrgenommene Tiefen-Verzerrungen lokal minimiert w erden. Eine w eitere mögliche Anw endung unseres Modells ist die verlustbehaftete Kompression zur schnellen Übertragung und Speicherung. Hierzu w erden die Anteile des Stereobildes, die unter 1 JND fallen, ohne w ahrnehmbaren Verlust entfernt und die Datenrate dadurch verringert. W ir erhalten verschiedene Instanzen unseres Modells, indem w ir die Empfindlichkeitsmessungen für verschiedene S3D-Technologien w ie Shutter-, Polarisations-und Anaglyphen-Brillen, aber auch für brillenfreie autostereoskopische Displays, durchführen. Auf diese Weise kann man Inhalte gezielt auf jede dieser Anzeigetechnologien zuschneiden. Da sich Stereosehen von Person zu Person stark unterscheiden kann, kann unser Modell zusätzlich personalisiert w erden, um Inhalte auf das Stereosehen bestimmter Personen abzustimmen. W ir haben unser Modell so erw eitert, dass es auch RGB-Bildinhalte einbezieht, w as eine noch stärkere Bearbeitung in Bildbereichen mit geringerem Kontrast ermöglicht [4]. Dies ist in Bildern mit Tiefenschärfeeffekten (Kamerafokus), Bew egungsunschärfe oder Szenendarstellungen bei Nacht (in der die Tiefenw ahrnehmung schw ächer ist) durchaus üblich. Rückwärtskompatibles 3D-Stereo Da ein 3D-Eindruck ggf. von manchen Betrachtern nicht gew ünscht ist, ergibt sich ein praktisches Problem: W ie können Inhalte in traditionellem 2D und gleichzeitig in 3D auf dem gleichen Gerät dargestellt w erden? W ir haben ein „rückw ärtskompatibles” 3D-Bearbeitungsverfahren entw ickelt. Dazu w ird binokulares Stereo so minimiert, dass die ohne 3D-Brille gesehenen Inhalte keine erheblichen Bildstörungen aufw eisen, aber ein 3DEindruck mit 3D-Brille w ahrgenommen w ird [3]. Unsere Technik stützt sich ausschließlich auf die Bildverarbeitung und funktioniert für alle vorhandenen 3D-Brillen-Technologien. © 2014 Max-Planck-Gesellschaft w w w .mpg.de 4/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt A bb. 3: Die C ornswe e t-Illusion, fa rba na glyphisch da rge ste llt. Oben (Ana glyphste re o): Ein Kre is m it Tie fe durch e chte physik a lische Dispa ritä t und sche inba re r Tie fe a ufgrund de r Ste re ova ria nte de r C ornswe e t-Illusion. Unten: Die e ntspre che nde n Tie fe nprofile und de re n wa hrge nom m e ne Form e n. De r dre idim e nsiona le Be re ich ze igt die Ge sa m tdispa ritä t, die m it C ornswe e t P rofile n de utlich k le ine r ist. © Ma x -P la nck -Institut für Inform a tik Die rückw ärtskompatible S3D-Technik nutzt die Stereovariante der Cornsw eet-Illusion, die sonst nur für Darstellung von Helligkeiten bekannt ist (Abb. 3). W ir fügen Cornsw eet-Profile an Tiefendiskontinuitäten ein (an den Silhouetten der Objekte in verschiedenen Tiefen), w as im Wesentlichen eine w inzige Verschiebung zw ischen den Bildern des linken und des rechten Auges, die aber dann allmählich in den Normalzustand, w ie bei den traditionellen 2D-Bildern, ausläuft. Effektiv bedeutet dies, mit Ausnahme der Tiefendiskontinuität verschw indet die Disparität im gesamten Bild. Durch neuronale Füllmechanismen (Fill-in) nimmt das HVS an, dass die in der Tiefendiskontinuität eingeführte Disparität sich in beiden Richtungen in Bezug auf die Diskontinuität vermehrt und interpretiert sie als Tiefendifferenz zw ischen den durch diese Tiefendiskontinuität getrennten Objekten. © 2014 Max-Planck-Gesellschaft w w w .mpg.de 5/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt A bb. 4: R ück wä rtsk om pa tible s Ana glyphste re o (obe n) bie te t gute Tie fe nwie de rga be qua litä t. Da s Bild sie ht de m Sta nda rdste re obild ä hnlich. Die ge ringe Me nge a n Dispa ritä t führt zu e ine r re la tiv hohe n Bildqua litä t a uch ohne die Ve rwe ndung e ine r Ste re obrille . Um m it de r tra ditione lle n Me thode e ine ä quiva le nte Tie fe nwie de rga be qua litä t zu e rre iche n, ist de utlich m e hr Dispa ritä t notwe ndig (unte n). In die se m Fa ll ve rschle chte rt sich da s a na glyphe Ste re obild ohne 3D-Brille signifik a nt. © Ma x -P la nck -Institut für Inform a tik , The dra gon m ode l courte sy of the Sta nford C om pute r Gra phics La bora tory Durch die konsequente Anw endung des Cornsw eet-Profilen an benachbarten Tiefendiskontinuitäten, kann man diese „kaskadieren”, sodass sich die w ahrnehmbaren Tiefenunterschiede aufaddieren, w as zu einem noch stärkeren Tiefeneindruck führt. Bei der Standard-3D-Methode müssen alle solchen Disparitäten akkumuliert w erden. Dies erhöht die Verschiebungen zw ischen den Bildern des linken und des rechten Auges, w as für einen Betrachter ohne 3D-Brille störend w ird (Abb. 4). Obw ohl unsere Technik den Gesamttiefeneindruck auch reduziert, ist der erhaltene 3D-Effekt stark und gleichmäßig für den Betrachter mit Brille, w ährend gleichzeitig Bildstörungen für den Betrachter ohne Brille minimiert w erden (Abb. 4) . W ir experimentierten mit der Cornsw eet-Illusion als Mittel zur Verbesserung des lokalen Tiefeneindrucks im Rahmen der regulären 3D-Darstellung. W ie w ir besprochen haben, ist deren Reichw eite typischerw eise stark komprimiert, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. W ir w aren in der Lage den verlorenen Tiefeneindruck teilw eise w iederherzustellen, indem Cornsw eet-Profile zu bestehenden (komprimierten) Disparitäten hinzugefügt w erden [5]. Hinw eis: Für Betrachtung der Abbildungen 2-4 empfehlen w ir eine Anaglyphen-Brille für den besten Effekt © 2014 Max-Planck-Gesellschaft w w w .mpg.de 6/7 Jahrbuch 2013/2014 | Myszkow ski, Karol; Ritschel, Tobias | Computergestützte Displays: Mehr w ahrgenommene 2D- und 3D-Details als die Physik erlaubt (bitte die Zoom-Version der Bilder verw enden). Literaturhinweise [1] Reinhard, E.; Ward, G.; Debevec, P.; Pattanaik, S.; Heidrich, W.; Myszkowski, K. High Dynamic Range Imaging Morgan Kaufmann Publishers, 2nd Edition, San Francisco, 2010 [2] Didyk, P.; Eisemann, E.; Ritschel, T.; Myszkowski, K.; Seidel, H.-P. Apparent Display Resolution Enhancement for Moving Images ACM Transactions on Graphics 29(4), 113 (2010); Proceedings of ACM SIGGRAPH 2010 [3] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P. A Perceptual Model for Disparity ACM Transactions on Graphics 30(4), 42 (2011); Proceedings of ACM SIGGRAPH 2011 [4] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P. A Luminance-Contrast-Aware Disparity Model and Applications ACM Transactions on Graphics 31(6), 184 (2012); Proceedings of ACM SIGGRAPH Asia 2012 [5] Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P. Apparent Stereo: The Cornsweet Illusion Can Enhance Perceived Depth Human Vision and Electronic Imaging XVII, IS&TSPIE’s Symposium on Electronic Imaging, pages 1–12, Burlingame, CA (2012) © 2014 Max-Planck-Gesellschaft w w w .mpg.de 7/7