Nonverbale Kommunikation zwischen Avataren in virtuellen Welten
Transcrição
Nonverbale Kommunikation zwischen Avataren in virtuellen Welten
Nonverbale Kommunikation zwischen Avataren in virtuellen Welten Diplomarbeit von Thomas Gründer geboren am 15. August 1981 in Berlin zur Erlangung des akademischen Grades Diplom Medieninformatiker Verantwortlicher Hochschullehrer: Prof. Dr.-Ing. habil. Rainer Groh Betreuer: Dipl.-Medieninf. Marius Brade TU-Dresden Professur Mediengestaltung Dipl.-Wirt.-Inf. Moritz Biehl T-Systems Multimedia Solutions GmbH Fakultät Informatik Institut für Software- und Multimediatechnik Professur Mediengestaltung Eidesstattliche Erklärung Hiermit versichere ich, die vorliegende Arbeit zum Thema „ Nonverbale Kommunikation von Avataren in virtuellen Welten“ selbstständig und unter ausschließlicher Verwendung der angegebenen Literatur und Hilfsmittel erstellt zu haben. Dresden, 30.04.2010 Thomas Gründer Danksagung Die vorliegende Diplomarbeit entstand als Forschungs- und Entwicklungsarbeit am Lehrstuhl Mediengestaltung der TU Dresden und der T-Systems Multimedia Solutions GmbH. Ich möchte mich an dieser Stelle bei all denen bedanken, die mich bei der Anfertigung meiner Diplomarbeit unterstützt haben. Ein besonderer Dank geht an meine Betreuer Prof. Dr.-Ing. habil. Rainer Groh, Moritz Biel und Marius Brade für die Möglichkeit, diese Diplomarbeit in Zusammenarbeit mit der TSystems Multimedia Solutions GmbH schreiben zu dürfen. Vielen Dank auch für die stets engagierte Betreuung und die vielen hilfreichen Ratschläge. Ebenfalls möchte ich mich bei den Mitarbeitern und Diplomstudenten des Lehrstuhls für Mediengestaltung für die tolle Arbeitsatmosphäre und die vielen konstruktiven Diskussionen bedanken. Naütrlich auch ein herzliches Dankeschön an alle Korrekturleser. Ganz besonders möchte ich meiner Familie danken, die mich während des ganzen Studiums so tatkräftig unterstützt hat und mir jederzeit mit Zuspruch und Ansporn beiseite stand. Inhaltsverzeichnis 1 2 3 4 5 6 Einleitung 5 1.1 Zielstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Grundlagen und Begriffe 9 2.1 Virtuelle Welten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Kommunikationswissenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Computer Vision 2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Analyse virtueller Kommunikation 31 3.1 Avatare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 Verbale und visuelle Kommunikation . . . . . . . . . . . . . . . . . . . . . . 41 3.3 Nonverbale Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4 Interaktionstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Bewertung virtueller Kommunikation 53 4.1 Kommunikationskanäle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2 Erlebnistiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3 Bewertungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Konzept zur Übertragung von Kommunikation in die Virtualität 69 5.1 Beschreibung des Konzeptes . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2 Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Fazit 87 6.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 1 Glossar 91 Literaturverzeichnis 92 Abbildungsverzeichnis 101 Tabellenverzeichnis 103 3 1 Einleitung Seit der Entwicklung der ersten Rasterisierungsverfahren in den 70er Jahren des letzten Jahrhunderts träumen Menschen davon, die reale Welt im Computer simulieren zu können. Seit jeher beschäftigt es Autoren von Science-Fiction-Literatur, wie solch eine Welt aussehen könnte, welche philosophischen und alltäglichen Probleme entstehen und wie die menschliche Gesellschaft verändert werden würde. Werke wie Neuromancer, die Matrix, Snowcrash oder Otherland sind nur die Bekanntesten. In den Geschichten werden die Menschen durch dreidimensionale Abbildungen repräsentiert, welche ihnen gleichen oder völlig anders aussehen. Der Unterschied zwischen realer und computergenerierter Welt verschwimmt in einem Maße, dass die Protagonisten oftmals erst erlernen müssen, das Virtuelle und das Reale auseinander zu halten. Es gibt dort eine ideale Schnittstelle zwischen Mensch und Computer, welche oftmals sogar als direkte Schnittstelle zum Gehirn der Protagonisten erdacht ist. Heutzutage gibt es zwar einen rasanten Fortschritt in der Computertechnologie, jedoch existieren solche Virtuelle Welten mit komplexen Schnittstellen noch nicht. Das hält den Menschen jedoch nicht davon ab, sich den Ideen schrittweise zu nähern. So versucht Second Life1 von Phillip Rosedale die Virtuelle Welt aus dem Roman Snowcrash ([Ste00]) umzusetzen, und der Spieleentwickler RealU entwickelt an einem Spiel zu den Otherland Romanen ([Gam10]). Die Schnittstelle zwischen Mensch und Computer liegt in heutigen Virtuellen Welten im Konzept des Avatars. Diese dreidimensionalen Figuren werden in der Virtuellen Welt dargestellt und lassen sich durch den Nutzer steuern. Neben Verbesserungen in Grafik, Visualisierung und Sound unterstützt auch die Weiterentwicklung von Avataren das Eintauchen der Nutzer in die Virtuelle Welt. Neue Gestaltungsmöglichkeiten lassen eine individuellere Erscheinung zu und realitätsnahe Animationen erhöhen die Akzeptanz der künstlichen Figuren. Mit der Annäherung der Virtuellen Welten an die Realität wird die Genauigkeit von Interaktion und Kommunikation immer stärker betont. Die Stellvertreter in der Virtuellen Welt sind jedoch noch nicht in der Lage, die komplexe zwischenmenschliche Kommunikation abzubilden. 1 http://secondlife.com/ 5 1 Einleitung 1.1 Zielstellung Diese Arbeit beschäftigt sich mit der zwischenmenschlichen Kommunikation in der Virtualität. Der Gold-Standard in der Kommunikation ist die Angesicht-zu-Angesicht-Kommunikation und gilt als das zu emulierende Optimum. In der Science-Fiction-Literatur geschieht dies durch perfekte Schnittstellen, welche in der heutigen Welt noch nicht vorhanden sind. In der vorliegenden Diplomarbeit wird der aktuelle Stand der virtuellen Kommunikation verdeutlicht. Parallel dazu wird untersucht, welche Kriterien für eine optimale Kommunikation erfüllt werden müssen. Es wird hinterfragt welche Zustände im menschlichen Verstand benötigt werden, um den Erfolg virtueller Kommunikation auf das Level der Angesicht-zu-AngesichtKommunikation zu heben. Vor allem der nonverbale Anteil an der Kommunikation wird näher beleuchtet. Da nonverbale Hinweise zum großen Teil über das Auge wahrgenommen werden, wird das computertechnologische Pendant, die Videokamera benutzt, um das Porträtvideo eines Menschen auf Hinweise zur Kommunikation zu untersuchen. Theoretisch ermöglicht der Videostream, grundlegende Gestiken und Zustände eines Nutzers zu erkennen. Diese Informationen müssen aus dem Video-stream extrahiert und aufbereitet werden. Es sind komplexe Algorithmen der Computer Vision nötig, um Gesichter, Gesichtsmerkmale, Gesten, sowie Stimmungen zu erkennen und über die Zeit zu verfolgen. Das Konzept dieser Arbeit untersucht, wie die Informationen zur menschlichen Kommunikation extrahiert und interpretiert werden können. Aufbauend auf den erhaltenen Informationen wird diese Arbeit Vorschläge für die Abbildung von menschlicher Körpersprache auf virtuelle Avatare erbringen und dieses Konzept prototypisch umsetzen. 1.2 Aufbau der Arbeit Die Diplomarbeit ist in sieben Kapitel unterteilt. Nach der Einleitung folgen im Kapitel 2 die Grundlagen und Begriffe, die für das Verständnis der Arbeit notwendig sind. Die Grundlagen unterteilen sich in die Begriffe der Virtuellen Welten, den Grundlagen zur Kommunikation und den Kommunikationswissenschaften sowie der Computer Vision. Anschliessend werden in Kapitel 3.3 verwandte Arbeiten zum Thema virtuelle Kommunikation vorgestellt. Von Relevanz sind Studien zur Verbesserung virtueller Kommunikation und zur Übertragung nonverbaler Hinweise in die Virtualität. Damit sind die Grundlagen der Thematik behandelt und es wird zur Recherche übergegangen. Hierfür werden in Kapitel 3 die aktuellen Formen der Kommunikation in Virtuellen Welten untersucht. Das Konzept des Avatars und der Mediation von Kommunikation wird genauso 6 1.2 Aufbau der Arbeit aufgezeigt wie die aktuell verwendeten Schnittstellen zwischen Mensch und Computer. In Kapitel 4 wird dann auf den Grundlagen und der Analyse aufgebaut. Es wird untersucht, wie virtuelle Kommunikation bewertet und verglichen werden kann. Dazu werden grundlegende technologische Kriterien aufgestellt. Aufbauend auf diesen Kriterien können dann höhere Konzepte der Immersion und Erlebnistiefe bewertet werden, um letztendlich auf den Erfolg der virtuellen Kommunikation zu schließen. Im Anschluss an die Erarbeitung der Einflussfaktoren auf den Erfolg virtueller Kommunikation wird in Kapitel 5 ein Konzept zur Verbesserung der virtuellen Kommunikation erstellt. Dazu wird das Konzept erst theoretisch vorgestellt und dann die prototypische Umsetzung beschrieben. Abschliessend werden die Ergebnisse in Kapitel 6 zusammengefasst. Weiterhin wird das Konzept diskutiert und ein Ausblick auf weitere Forschungsarbeiten gegeben. 7 2 Grundlagen und Begriffe Die Arbeit beschäftigt sich mit der Kommunikation zwischen Avataren in virtuellen Welten. In diesem Satz sind drei Begriffe genannt, die eine Fülle von Bedeutungsinhalten besitzen. Aufgrund dessen werden in dem ersten Kapitel zunächst die Grundlagen zum Verständnis und der Nachvollziehbarkeit der Diplomarbeit gelegt. Hierzu gehören die Begriffe der Virtuellen Welten, der Kommunikationswissenschaften und der Computer Vision und es werden Zusammenhänge zwischen den Begriffen herausgestellt. Desweiteren wird der theoretische Rahmen beschrieben, welcher in den folgenden Kapiteln weiter vertieft wird. 2.1 Virtuelle Welten Eine Schlüsselstellung in dieser Arbeit nimmt der Begriff der Virtuellen Welten ein. Nechvatal definiert Virtuelle Welten als „synthetische, immersive Kreationen“ ([Nec99], S. 29). Hier fallen die wichtigen Begriffe synthetisch und immersiv, welche die Haupteigenschaften Virtueller Welten darstellen. Desweiteren existiert die Definition „Virtueller Welten“ von Bell und Robbins-Bell (vgl. [BRB08], S. 127): Virtual Worlds are a synchronous persistent network of people represented by avatars, faciliated by networked computers.1 Jeder dieser Terme wird dabei von Bell und Robbins-Bell spezifisch verstanden und wie folgt in [BRB08] definiert: • Synchronität bezieht sich hier auf den zeitlichen Aspekt einer Kommunikation. Die Teilnehmer müssen zur gleichen Zeit anwesend sein, um synchron zu kommunizieren. In einer Virtuellen Welt kann über Chat, Voice Chat, Group Chats und teilweise sogar schon Video Chats synchron kommuniziert werden. Hierbei liegt die Betonung der Synchronität jedoch nicht auf der Ausschließlichkeit. Auch asynchrone Kommunikati1 auf deutsch: Virtuelle Welten sind ein synchrones, persistentes Netzwerk von Menschen, welche durch Avatare repräsentiert werden, und werden von vernetzten Computern erstellt. 9 2 Grundlagen und Begriffe on ist durchaus erwünscht. Jedoch ist die synchrone Kommunikation unabdingbar für Virtuelle Welten. • Persistenz bezieht sich auf Beständigkeit in der Zeit. Ein Teilnehmer muss ständig dazu in der Lage sein, auf die Virtuelle Welt zugreifen zu können. • Netzwerk von Menschen ist als soziales Netzwerk zu begreifen. Soziale Netzwerke sind eine Form von Gemeinschaft, eine lose Selbstorganisation von Menschen im gleichen Raum oder auch ein Bekanntschaftsgeflecht. • Avatar ist der Stellvertreter eines Menschen in der Virtuellen Welt und wird im Abschnitt 2.1.1 vertieft betrachtet. • Vernetzte Computer betonen die Synthetik und grenzen die Virtuellen Welten von realen Gesellschaftsspielen ab. Es existieren zum Beispiel sogenannte „Pen-&-PaperRollenspiele“ 2 , in welchen sich eine Gruppe von Menschen fiktive Welten erschaffen und dort als Helden verschiedene Abenteuer bestehen können. Diese Definition ist ein aktuelles Abbild und wird ständig erweitert. Dies geht auf den permanenten Fortschritt der zugrunde liegenden Technologien zurück. Bell und Robbins-Bell vernachlässigen in ihrer Definition allerdings die Begriffe der Virtualität beziehungsweise jene der Synthetik und der Immersion, welche von Nechvatal so hervorgehoben wurden. So lässt sich ein ständig erreichbarer Video-Chat wie Chatroulette3 auch als Virtuelle Welt klassifizieren, obwohl ausschließlich reale Objekte übertragen werden. Um die Begriffe Realität und Virtualität unterscheiden zu können wird das Virtualität-Realität-Kontinuum eingeführt. Auf den Begriff der Immersion soll daran anschließend eingegangen werden. Das Virtualität-Realität-Kontinuum Der Begriff der Virtualität ist von Paul Milgram in Abgrenzung zur Realität benutzt worden. Dabei steht Realität für Physisches, Wirkendes und Virtualität für Nicht-physisches, aber ebenso Wirkendes. Milgram bestimmt die Menge der realen Objekte durch alle Objekte, welche eine physische und objektive Existenz besitzen ([MK94], S. 6). Im Gegensatz dazu sind virtuelle Objekte als Objekte postuliert, welche als Essenz oder als Effekt aber nicht physisch existieren ([MK94], S. 7). Diese beiden Begriffe werden hier aus dem Philosophischen übertragen. Verständlicher ist die Unterscheidung von realen Objekten und virtuellen Objekten durch die Eigenschaft der Materialität. Reale Objekte besitzen Stofflichkeit als Eigenschaft, virtuelle Objekte haben keine Materialität. 2 3 vgl. http://de.wikipedia.org/wiki/Pen-%26-Paper-Rollenspiel Chatroulette ist ein Internet-Video-Portal auf http://chatroulette.com/ 10 2.1 Virtuelle Welten Milgram versteht die beiden Begriffe Virtualität und Realität allerdings nicht als gegensätzlich, sondern fügt sie zu einem Kontinuum zusammen. Dabei stellt er sie gegenüber und visualisiert am Virtualität-Realität-Kontinuum den Begriff vermischte Realität. Diesen unterteilt er noch in erweiterte Realität und erweiterte Virtualität. Das Virtualität-Realität-Kontinuum ist in Abbildung 2.1 dargestellt. Auf der linken Seite der Abbildung 2.1 weist das Virtualität-Realität-Kontinuum allein reale Objekte auf, was alle in der realen Welt beobachtbaren Objekte meint. Hier gelten alle Objekte, welche direkt durch eine Person wahrgenommen oder über eine Art Anzeige, sichtbar gemacht werden. Es zählen demnach auch Sterne als reale Objekte, da sie durch ein Teleskop visualisiert werden. Genauso werden Knochen den realen Objekten zugewiesen, da sie durch Ultraschall oder Röntgenstrahlen sichtbar gemacht werden können. Auf der rechten Seite des Kontinuums werden dagegen allein virtuelle Objekte abgebildet. Hierzu zählen synthetische Objekte, welche durch Computergrafik und Simulationen generiert werden. Realität Vermischte Realität erweiterte Realität erweiterte Virtualität Virtualität Abbildung 2.1: Virtualität-Realität-Kontinuum nach [MK94] Zwischen diesen Extremen zerfließt die Grenze dieser beiden Prinzipien und der resultierende Bereich wird von Milgram mit Vermischter Realität betitelt. In dem Bereich der vermischten Realität wird gleichzeitig die reale und die Virtuelle Welt in einer Anzeige, zum Beispiel einem Monitor, abgebildet. Es existieren aber unterschiedliche Nuancen. Einmal existiert der Begriff erweiterte Realität, welcher für den Bereich von der Realität bis zur Mitte der Abbildung 2.1 benutzt wird. Er definiert eine Abbildung der realen Welt, welche durch virtuelle Objekte erweitert wird. Als Beispiel dienen visuelle Anzeigen, die man auf dem Kopf trägt. Hier werden virtuelle Objekte in Echtzeit auf eine von Videokameras aufgezeichnete reale Welt projiziert. Der Bereich von der Mitte bis zur Virtualität wird als erweiterte Virtualität bezeichnet und sagt aus, dass reale Objekte, zum Beispiel durch eine Videokamera, in eine Virtuelle Welt übertragen werden können. Beispiele für die einzelnen Begriffe des VirtualitätRealität-Kontinuum sind in Abbildung 2.2 aufgezeigt. Dabei wurde das Bild für die Erweiterte Realität mit dem Metaio Live-Viewer aufgenommen4 , und das Bild zur Virtuellen Realiät ist aus dem Film „Knightmare“ 5 . 4 5 http://sw.ar-live.de/ http://en.wikipedia.org/wiki/Knightmare 11 2 Grundlagen und Begriffe (a) Realität (b) Erweiterte Realität (c) Erweiterte Virtualität (d) Virtuelle Realität Abbildung 2.2: Beispiele für das Virtualität-Realität-Kontinuum Durch das Virtualität-Realität-Kontinuum wird klar, dass die Definition von Bell und RobbinsBell um Virtualität erweitert werden muss. Virtualität allein reicht nicht aus, da Virtuelle Welten, wie „Blue Mars“ 6 oder „Second Life“ [Inc10], bereits Video-Chat und Videointegration ermöglichen. Dadurch werden reale Objekte in die virtuelle Realität eingeführt und nach dem Virtualität-Realität-Kontinuum müssen Virtuelle Welten in den Bereich der erweiterten Virtualität eingeordnet werden. Immersion Neben der Definition von Bell und Robbins-Bell sowie des Virtualität-Realität-Kontinuums, wird in der Fachliteratur ein weiterer Begriff im Zusammenhang mit Virtuellen Welten benutzt. In dem Paper [MK94] führt Milgram die Eigenschaften Immersion und Präsenz in die Taxonomie „mixing real and virtual worlds“ ([MK94], S. 12) ein. Slater und Wilbur stellen in [SW97] einen Framework für „immersive virtual Environments“ auf und Blascovich benutzt „immersive virtual Environments“ in [BLB+ 02] als Werkzeug für die Sozialpsychologie. 6 vgl. http://www.bluemars.com/ 12 2.1 Virtuelle Welten Brown und Cairns haben sich in [BC04] ausführlicher mit der Immersion in Computerspielen beschäftigt. Dabei benutzen sie den Begriff Immersion als Erfahrung zu einem bestimmten Zeitpunkt und unterteilen sie in drei unterschiedliche Grade. Der erste Grad der Immersion ist die Beschäftigung (Engagement) mit einem Spiel, bei dem der Spieler Aufmerksamkeit, Zeit und Übung investieren muss, um das Spiel kontrollieren zu können. Darauf folgt die Vertiefung (Engrossment) in das Spiel, wobei der Spieler emotional gebunden wird und die Spielkontrollen aus der Aufmerksamkeit verschwinden. Der Spieler ist jetzt weniger seiner Umgebung und seiner Selbst bewusst. Brown und Cairns definieren den Status so: „A Zen-like state where your hands just seem to know what to do, and your mind just seems to carry on with the story“ 7 ([BC04], S. 3). Von der Vertiefung her kann der Spieler noch weiter in das Spiel einbezogen werden. Über die Identifikation mit dem Spiel und die Einbettung in die Atmosphäre des Spiels ist es möglich, in den Zustand der vollständigen Immersion (total Immersion) zu kommen. Brown und Cairns erklären diesen Zustand mit: „When you stop thinking about the fact that you’re playing a computer game and you’re just in a computer.“ 8 ([BC04], S. 4). Jennett et al. fassen diese Indizien in [JCC+ 08] zusammen und betonen besonders drei Eigenschaften der Immersion: • das Fehlen von Zeitgefühl, • der Verlust der Aufmerksamkeit gegenüber der realen Welt, • Einbindung und das Gefühl, eine Aufgabe zu haben und etwas zu erreichen. Es handelt sich bei Immersion also um eine absorbierende und einprägsame Erfahrung. Diese Erfahrung ist in Virtuellen Welten gewünscht, jedoch kann Immersion als subjektive Erfahrung kein Muss-Kriterium für eine Virtuelle Welt sein. Jennett et al. grenzen daher die Begriffe Fließen, Präsenz und kognitive Absorption in [JCC+ 08] von Immersion ab und bezeichnen sie allgemein als Erlebnistiefe (Engaging Experience). Der Begriff Virtuelle Welt wird in dieser Arbeit nach der Definition von Bell und RobbinsBell mit der Erweiterung verbunden, dass sich Virtuelle Welten der erweiterten Virtualität zuordnen lassen. Virtuelle Welten zeichnen sich durch eine hohe Erlebnistiefe aus, welche oft als Immersion fehlinterpretiert wird. Die Erlebnistiefe zu verstärken ist das Ziel neuer Anzeigen und neuer computergrafischer Simulationen (vgl. [MK94]). Es existieren jedoch weitere Maßnahmen zur Verbesserung des Anwendererlebnisses, wie zum Beispiel Avatare. 7 in deutsch: Ein Zen-artiger Status in dem die Hände genau zu wissen scheinen, was sie machen müssen und der Geist sich komplett auf die Geschichte konzentrieren kann. 8 in deutsch: Wenn man aufhört über den Fakt nachzudenken, dass man ein Computerspiel spielt und sich vollständig in der Computerwelt befindet. 13 2 Grundlagen und Begriffe 2.1.1 Avatar In der Definition von Virtuellen Welten in der vorliegenden Arbeit wird die Repräsentation von Menschen durch sogenannte Avatare als immanent deklariert. Das Wort „Avatar“ kann bis zum Sanskrit und der Hindu-Religion verfolgt werden. Er bedeutet dort „Herabkunft“, meist von einem göttlichen Wesen. Dieses Wesen gleitet in den menschlichen Bereich herab und interagiert mit dessen Bewohnern. Der Avatar schaut also nicht nur durch ein Fenster in diese Welt, sondern kann in diesem Bereich auch in seiner Präsenz erfasst werden und auf die Welt einwirken (vgl. [EA44]). Der Begriff „Avatar“ wurde nach Bell und Robins-Bell (vgl. [BRB08], S. 131), durch vier Quellen im Bereich der Virtuellen Welten bekannt: Einmal durch das Spiel „Avatar“, welches 1979 von Bruce Maggs, Andrew Shapira und David Sides entwickelt wurde; dann durch das Spiel „Ultima IV“ von 1985, wo der Hauptcharakter den Namen Avatar trägt; weiterhin durch die Virtuelle Welt „Habitat“, die 1985 die Bewohner als Avatare betitelte und letztendlich der Roman „Snowcrash“ von Neal Stephenson [Ste00], nach dessen Vorbild die Virtuelle Welt Second Life gestaltet ist. An anderer Stelle wird der Avatar von Groh und Zavesky als „dynamisches Messinstrument (Vitruv-Mann), Stellvertreter (Agent und Probehandelnder) und multiplizierbarer Platzhalter in einer Virtuellen Welt“ begriffen. „Wichtig sind also seine Dimensionen als Ort im Raum und als Moment (Zustand) in der Zeit.“ ([GZ08], S. 189). Aufgrund dieser Beispiele kann der Begriff des Avatars wie folgt definiert werden: Alle digitalen Repräsentationen, seien sie grafisch oder textuell, haben sie eine Bezeichnung oder einen Namen, die Fähigkeit Aktionen zu vollziehen, sowie eine Präsenz und sind sie weiterhin von Menschen in Echzeit kontrolliert, können Avatar genannt werden (vgl. [BRB08], S. 132).9 In der Literatur wird der Begriff Avatar auch für die Repräsentation „intelligenter Lebensformen“ [Koc02] benutzt. Um Verwirrungen vorzubeugen wird der Avatar in dieser Arbeit als wahrnehmbare digitale Repräsentation verstanden, dessen Verhalten durch einen Menschen in Echtzeit gesteuert wird. Ein Agent hingegen wird als mathematische oder computergesteuerte Entität interpretiert, die vordefinierte Ziele verfolgt. Ein körperlicher Agent ist dabei ein Agent, dessen Aktionen durch eine wahrnehmbare digitale Repräsentation abgebildet wird (vgl. [BB04], S. 3). Somit sind Avatare als von Menschen gesteuert definiert, wie in Abbildung 2.3 aufgezeigt. Zusätzlich besteht die Anforderung, dass die Steuerung von Avataren in Echtzeit abläuft, um Überschneidungen mit dem Begriff des körperlichen Agenten zu vermeiden. 9 vom Author aus dem englischen übersetzt 14 2.1 Virtuelle Welten Benutzer kontrolliert direkt Virtuelle Welt interagiert Inhalt Benutzer kommuniziert Avatar Agent Virtuelle Welt Co-Avatars interagiert Inhalt de�iniert Ziele kontrolliert Verhalten kommuniziert Avatar Co-Avatars Abbildung 2.3: Hybrides Avatar-Agent Modell nach [GMH04] Dessen ungeachtet gibt es noch offene Fragen bei der Unterscheidung zwischen Agent und Avatar. Avatare allein durch Menschen zu steuern ist bei dem aktuellen Stand der Technik allein schon aufgrund der fehlenden Eingabemodalitäten nicht möglich. Um den technischen Hintergrund von Avataren und deren Steuerung zu betrachten, ist es notwendig, die technischen Grundlagen von Virtuellen Welten eingehender zu betrachten. 2.1.2 Technische Grundlagen Virtuelle Welten basieren laut der Definition aus Abschnitt 2.1 auf vernetzten Computern. Computer müssen Informationen austauschen, um Virtuelle Welten darzustellen. Die Computer der Teilnehmer benötigen eine Vielzahl an Informationen, zum Beispiel an welchem Ort sich Teilnehmer in der Virtualität befinden. Unter anderem sind Aussehen, Aktion und Zustand von Teilnehmern und deren Avataren weitere Informationen, welche zwischen den Computern der Anwender ausgetauscht werden müssen. Für diesen Informationsaustausch ist deren Verknüpfung essentiell. Computer können auf verschiedene Arten vernetzt sein. Eine Übersicht über Computernetzwerke ist in dem Standardwerk „Computernetzwerke“ von Tanenbaum ([Tan02]) aufgestellt. Um die Architektur von Virtuellen Welten zu verstehen, ist jedoch weniger ein Verständnis der Vernetzung von Computern bedeutsam, als ein Verständnis der Aufgabenteilung zwischen den vernetzten Computern. Dazu wird das Client-Server-Modell benutzt, welches in den siebziger Jahren von Xerox Parc10 eingeführt wurde. Dabei fordert ein als Client bezeichneter 10 Der erste Kommunikationsstandard wurde in [Whi76] definiert. 15 2 Grundlagen und Begriffe Computer Informationen von einem als Server bezeichneten Computer an. Ein anschauliches Beispiel für solch eine Architektur ist das Internet selbst. Dort werden Webseiten mit ihren Diensten auf verschiedene Server aufgespielt. Die Anwender, beziehungsweise der Rechner, der auf solche Dienste zugreift, wird als Client bezeichnet. Der grundlegende Aufbau ist in Abbildung 2.4 dargestellt. Für Virtuelle Welten bedeutet das Client-Server-Modell, dass der Server Informationen zum Zustand der Welt besitzt, welcher ständig von den Clients abgerufen und angezeigt wird. Gleichzeitig fordert der Client auch Änderungen an dem Zustand der Virtuellen Welt an, wie zum Beispiel eine Änderung der Position seines Avatars. Client Rechner Client Browser Anfrage Netzwerk Server Rechner Server Dienst Antwort Abbildung 2.4: Client-Server-Modell Die Server haben also die Aufgabe, den Zustand der Virtuellen Welt zu berechnen, während die Clients die Aufgabe haben, diesen Zustand zu visualisieren und Änderungen am Zustand zu beauftragen. Als Beispiel für eine Virtuelle Welt wird der Server OpenSim11 mit dem Client RealXtend12 untersucht. Die wesentlichen Module sind in Abbildung 2.5 für den Server und in Abbildung 2.6 für den Client festgehalten. Der OpenSim Server besteht im Wesentlichen aus zwei Ebenen. Die eine Ebene ist die Anwendungsebene und stellt die grundlegenden Funktionen der Software dar. Es werden die Hardwareressourcen verwaltet und die Schnittstelle zum Betriebssystem bereit gestellt. Hierzu gehört auch die Kontrolle des Lebenszyklus des Servers. Die zweite Ebene ist für die Logik des Servers zuständig und berechnet den eigentlichen Zustand der Virtuellen Welt. Hierzu gehört die Positionen der Avatare und der virtuellen Objekte, die Teilnehmer und deren Inventar, sowie die physikalischen Gesetze, die in der Virtuellen Welt herrschen und die Verwaltung der Skriptsprache, mit welcher Teilnehmer Eigenschaften und Zustände der Welt ändern können. Weiterhin gehören zum Zustand die Ereignisse der Virtuellen Welt, welche die Änderung von einem Zustand zum nächsten Zustand bewirken. Diese Ereignisse basieren auf dem Prinzip der Kausalität. Wenn eine Aktion ausgelöst wird oder ein Ereignis geschieht, gibt es darauf eine Reaktion der Umwelt. Diese Ereignisse können aus der Welt selbst oder von Teilnehmern in der Welt ausgelöst werden. Der Client mit dem Namen „RealXtend“ ist anders aufgebaut. 11 12 http://opensimulator.org/ http://www.realxtend.org/ 16 2.1 Virtuelle Welten Abbildung 2.5: Architektur OpenSim Server aufbauend auf ([McS05], S. 23) Auf der Anwendungsebene besitzt er die gleichen Aufgaben wie der OpenSim Server, um die Software an das Betriebssystem anzuschliessen und die grundlegenden Funktionen, wie Ressourcenmanagement, sowie den Lebenszyklus bereit zu stellen. Die nachfolgende Ebene ist beim Client die Darstellungsebene. Hier wird der Zustand, welcher vom Server über die Netzwerkkomponente angefordert wird, für die einzelnen Ausgabegeräte vorbereitet. Dazu gehört die visuelle Darstellung der Virtuellen Welt über eine Grafikengine sowie die auditive Darstellung über eine Audioengine. Weiterhin wird die Eingabe des Menschen verarbeitet und als Ereignis an den OpenSim Server gesendet. Hierzu zählt die Eingabe über Tastatur, Maus, Mikrofon, Webkamera und weiteres. Über diese Ereignisse kann der Zustand der Virtuellen Welt verändert werden. Der dritte Teil ist die Logikberechnung des Clients. Darunter fällt die Kommunikation zwischen den Clients, sei es als Text-, Audio- oder Video-Kommunikation. Die Kommunikation wird separat gehandhabt, da es sich anbietet auf vorhandene Kommunikationsstrukturen wie „Skype“ 13 oder „Google Video Chat“ 14 aufzubauen. Für die vorliegende Diplomarbeit besonders von Bedeutung ist das System zur Charakteranimation. Dieses System ist dafür zuständig, Avatare und Figuren mit Leben zu erfüllen, sie zu animieren. Dies wird in Kapitel 3 vertieft. Laut aktuellem Stand der Technik basieren Virtuelle Welten hauptsächlich auf einer ereignisorientierten Server-Client Architektur, wie an dem Beispiel der Virtuellen Welt OpenSim gezeigt werden konnte. Der Server übernimmt die Aufgabe, den Zustand der Virtuellen Welt zu berechnen und reagiert auf Ereignisse. Diese Ereignisse können über den Client gesendet werden, welcher sich um die Darstellung des Zustandes kümmert, oder aber direkt aus den Modulen des Servers selbst, zum Beispiel über die Physikbehandlung oder über Skripte. Weiterhin animiert der Client die Avatare und wertet die Eingaben der Anwender aus. Dieser grobe Überblick genügt, um die grundlegende Arbeitsweise einer Virtuellen Welt zu 13 14 siehe www.skype.com siehe http://www.google.com/chat/video 17 2 Grundlagen und Begriffe Abbildung 2.6: Architektur RealXtend Client aufbauend auf ([McS05], S. 23) verstehen. Es ergibt sich hieraus, dass der Client die Animationen der Charaktere und Avatare abspielt. Die Animationen müssen jedem Client zur Verfügung stehen, da der Zustand des Charakters, also welche Animation abgespielt wird, vom Server gesendet wird. Auf dem Server sind eine bestimmte Menge an Animationen definiert, welche dann je nach Zustand der Charaktere vom Client abgespielt werden. Hieraus ergeben sich bereits erste technische Einschränkungen, auf welche im Kapitel 3 tiefer eingegangen wird. Aus den technischen Einschränkungen in Virtuellen Welten ergeben sich zwangsweise auch kommunikative Einschränkungen. Um diese ausfindig zu machen, ist es notwendig, Kommunikation im Allgemeinen und zwischenmenschliche Kommunikation im Speziellen zu erläutern. 2.2 Kommunikationswissenschaften Der Begriff Kommunikation ist, nach Virtuellen Welten und Avatar, der dritte große Begriff des Titels dieser Diplomarbeit und stammt aus der Kommunikationswissenschaft. Die Kommunikationswissenschaft beschäftigt sich mit den Bedingungen, Funktionen, Strukturen und Wirkungsmöglichkeiten von Medien und Kommunikation. Sie kann theoretische Modelle der zwischenmenschlichen Kommunikation anbieten sowie analytische Werkzeuge beitragen, um die zwischenmenschliche Kommunikation in Virtuellen Welten einzuordnen. Dies ist für die Aufgabenstellung der Diplomarbeit von besonderer Relevanz. Deshalb muss auf die Grundlagen der Kommunikation detailiert eingegangen werden. In der Kommunikationswissenschaft sind folgende Kommunikationsformen Untersuchungsgegenstand (vgl. [Bec07], S. 12): • Humankommunikation ist als ausschließliche Kommunikation unter Menschen definiert. 18 2.2 Kommunikationswissenschaften Ihr besonderes Kennzeichen ist die Verfügbarkeit eines sprachlichen Kanals über und neben anderen nonverbalen Kommunikationskanälen. • Massenkommunikation ist Beck zufolge eine besondere Form der Humankommunikation, deren Kennzeichen unter anderem darin besteht, dass sie auf technische Medien angewiesen ist, in aller Regel auf einer 1:n Kommunikation basiert und sich an die Öffentlichkeit richtet. • Computervermittelte Kommunikation ist ein aus der Multimedia-Kommunikation hergeleiteter Begriff. Gemeint sind neue Kommunikationsformen, die durch das Verschmelzen von Telekommunikation, Computerisierung und herkömmlichen elektronischen Massenmedien möglich geworden sind. 2.2.1 Begriff Kommunikation Kommunikation ist ein komplexer interaktiver Prozess, der einerseits zwischenmenschlich und andererseits medienvermittelt erfolgen kann. Der Münchener Kommunikationswissenschaftler Heinz Pürer skizziert anhand zentraler Grundbegriffe die Komplexität dieses Begriffes mit Blick auf dessen gesellschaftliche Relevanz. Unter Verwendung von Wissenschaftsdisziplinen wie Soziologie, Psychologie und Linguistik, wird den Begriffen Kommunikation, Massenkommunikation und elektronisch mediatisierte Kommunikation eine Bedeutung zugeschrieben, die sich sowohl an der Alltagssprache als auch an der wissenschaftlichen Fachsprache anlehnt. Kommunikation meint demnach Informationsübertragung und Bedeutungszuweisung sowie aber auch zwischenmenschliche Kontaktaufnahme und kann als eine wichtige Kategorie sozialen Handelns bezeichnet werden. Die Kommunikation meint auf der einen Seite alle Prozesse der Informationsübertragung und bezieht technische, biologische, psychische, physische und soziale Informationsvermittlungssysteme mit ein. Auf der anderen Seite versteht man unter Kommunikation einen Vorgang der Verständigung und der Bedeutungsvermittlung zwischen Lebewesen (vgl. [Mal63], S. 18). Kommunikation zwischen Menschen stellt schliesslich eine Form sozialen Handelns dar, das mit subjektivem Sinn verbunden sowie auf das Denken, Fühlen und Handeln anderer Menschen bezogen ist. Kommunikation ist verbale oder nonverbale Interaktion, die durch Zeichen und Symbole vermittelt wird. Die Kommunikationskanäle, die der menschlichen Sinneswahrnehmungen weitestgehend entsprechen, sind dabei variabel einsetzbar. Elektronisch mediatisierte Kommunikation verbindet mittels technischem Equipment herkömmliche Kommunikationsformen mit neuen Kommunikationsmöglichkeiten, wie zum Beispiel E-Mail, Chat oder Virtuelle Welten. Es handelt sich dabei um die Zusammenführung verschiedener Informationstechnologien, wie Computer, Telekommunikation, Massenmedien und Unterhaltungsindustrie, welche Multimedia erst möglich machen. Dadurch entstehen neue Kommunikationsräume, deren wichtigstes 19 2 Grundlagen und Begriffe Merkmal es ist, dass für das kommunizierende Individuum der Mensch und der Computer tendenziell vermischt werden. Bei der Interaktion tritt die Maschine als Vermittler oder als Kommunikationspartner in neuartiger Weise in Erscheinung. Im vereinfachten klassischen Sinne besteht Kommunikation aus mindestens vier Elementen, einem Sender (Kommunikator), einem Kommunikationsinhalt (Aussage, Mitteilung, Botschaft), einem Kanal, über den der Inhalt vermittelt wird (Medium), sowie einem Empfänger (Rezipient) (siehe Abbildung 2.7). Der Kommunikationsvorgang läuft derart ab, dass der Sender eine Information verschlüsselt (encodiert), sprachlich an den Kommunikationspartner übermittelt und der Empfänger die übermittelte Botschaft erfasst und entschlüsselt (decodiert). Dieser Prozess ist in zahlreichen Kommunikationsmodellen dargestellt (vgl. [MW93], (vgl. [BB94], S. 21-25)). Signal kodieren störanfälliger Informationskanal Sender Interpretieren Zeichenvorrat Signal entkodieren Empfänger Interpretieren Abbildung 2.7: Sender-Empfänger-Modell nach ([Bec07] S.26) Beim Gespräch zwischen zwei oder auch mehr Personen läuft dieser Prozess in aller Regel wechselseitig ab, also im ständigen Tausch der Rollen von Kommunikator und Rezipient. Die Wechselseitigkeit und weitere Charakteristika der Kommunikation sind wie folgt definiert: • Wechselseitigkeit ist in aller Regel eines der Merkmale von Angesicht-zu-AngesichtKommunikation (vgl. [Mer77], S. 75). „Der Status der beiden Kommunikationspartner und/oder die soziale Strukturierung der Kommunikationssituation“ können jedoch zu einem „kommunikativen Gefälle“ zwischen Sender und Empfänger führen, „sodass der Kommunikationsprozess bzw. sein dialogischer Charakter nicht zwingend symmetrisch strukturiert sein muss“ ([Kub94], S. 38). • Intentionalität ist die Absichtshaftigkeit des Senders und Zielgerichtetheit der Botschaft an den Empfänger. Intentionalität kann auch gegeben sein, wenn der angestrebte Empfänger möglicherweise nicht reagiert (vgl. [Mer77], S. 77f.) oder etwas anderes versteht als der Sender. • Anwesenheit bezeichnet die gegenseitige Wahrnehmbarkeit der Kommunikationspart- 20 2.2 Kommunikationswissenschaften ner in der direkten Interaktion. Diese gegenseitige Wahrnehmbarkeit ist nicht nur im persönlichen Gespräch zwischen zwei Personen gegeben, sondern beispielsweise auch beim Telefonieren und eingeschränkt in Virtuellen Welten (vgl. [Mer77], S. 79ff.). In dieser „technisch vermittelten“ Form der Kommunikation nehmen die beiden Gesprächspartner einander wegen der eingeschränkten Zahl der benutzten Kommunikationskanäle weiterhin auch anders wahr als in der Angesicht-zu-Angesicht-Kommunikation. • Sprachlichkeit ist trotz der vielfältigen nonverbalen Kommunikation ein wesentliches Merkmal der Kommunikation (vgl. [Mer77], S. 82). Sprache ist das leistungsfähigste Kommunikationsinstrument und spielt für die Verständigung zwischen zwei oder mehreren Kommunikationspartnern eine wichtige Rolle. • Wirkung vereint sämtliche Verhaltensweisen und Erlebnisprozesse, die beim Kommunizieren ablaufen und erfahrbar sowie beobachtbar sind (vgl. [Mer77], S. 84ff.). • Reflexivität, also die Rückwirkung von Kommunikation, sieht Merten als das wichtigste Merkmal an. Reflexivität bezieht sich auf die beiden Kommunikationspartner und ist so als Rückwirkung von Prozessen in der Kommunikation auf sich selbst zu begreifen. Merten unterscheidet zwischen Reflexivität in der Zeitdimension, in der Sachdimension sowie in der Sozialdimension (vgl. [Mer77], S. 86ff.). Dabei bedeutet Reflexivität in ihrer zeitlichen Dimension die Rückwirkung der Folgen von Kommunikation auf den Kommunikationsprozess selbst. Reflexivität in der sachlichen Dimension meint, „dass Kommunikation jeweils mit dem Kanal bzw. Code operieren kann, der dem sachlichen Anliegen am angemessensten ist. Kommunikation rekurriert mithin auf kulturelle und bewusstseinsmäßige Vorleistungen, kann adäquat Informationen auswählen, aufeinander beziehen, vorantreiben, Traditionen bilden und an Sinnstrukturen anknüpfen.“ ([Kub94], S. 18). Reflexivität in der sozialen Dimension bedeutet, dass „Kommunikation Individuen verbindet, Sozialität stiftet, kognitive Leistungen wie Wahrnehmen, Erwarten und Handeln verlangt bzw. erzeugt und damit letztlich menschliche Identität konstituiert“ ([Kub94], S. 18). Gemeint ist, dass Kommunikation zeitlich, sachlich und sozial sich immer auf bereits Vorhergehendes oder Vorhandenes bezieht. Kommunikation ist durch ein Mindestmaß an Verständigung, an Gemeinsamkeiten der Gedanken und der Absichten zwischen Sender und Empfänger gekennzeichnet. Sie dient der Verständigung, dem Austausch und dem Teilhaben an dem, worüber kommuniziert wird. Verständigung liegt dann vor, „wenn der Rezipient eine ihm mitgeteilte Aussage so versteht, wie sie vom Kommunikator gemeint ist“ ([Bur95], S. 75). Dazu wird ein gemeinsamer, übereinstimmender Zeichenvorrat benötigt. Über einen in großen Teilen übereinstimmenden Zeichenvorrat verfügen Kommunikationspartner, die nicht nur die gleiche Sprache sprechen, sondern auch ähnliche oder gleiche Interessen sowie ähnliche oder gleiche Erfahrungen, Anschauungen und Werthaltungen haben (vgl. [Mer77], S. 47-49). 21 2 Grundlagen und Begriffe Kommunikation und Interaktion Die Idee, wonach soziales Handeln „mit subjektivem Sinn verbunden“ sowie „auf das Handeln anderer Menschen bezogen und daran in seinem Ablauf orientiert ist“, geht auf den Soziologen Max Weber zurück ([WW47], S. 1). Wenn sich zwei oder mehr Personen „in ihrem gegenseitigen Verhalten aneinander orientieren und auch gegenseitig wahrnehmen können“ ([Jäc95], S. 463), wird dies als Interaktion bezeichnet. Interaktion ist demnach durch „Prozesse der Wechselbeziehung bzw. Wechselwirkung[...]“ gekennzeichnet. Es soll in Anlehnung an Burkart unter sozialer Interaktion ein wechselseitiges Geschehen zwischen zwei oder mehr Personen verstanden werden, „welches mit einer Kontaktaufnahme beginnt und zu (Re-)Aktionen der im Kontakt stehenden Lebewesen führt“ ([Bur95], S. 30). Burkart weist hier ganz stark auf das Kausalitätsprinzip hin, auf welches bereits in Abschnitt 2.1.2 bei der ereignisorientierten Server-Client Architektur von Virtuellen Welten hingewiesen wurde. Kommunikation kann somit als eine „spezifische Form der sozialen Interaktion“ verstanden werden ([Gra72], S. 1110), zumal zwischenmenschliche Kommunikation sich in aller Regel auch durch Wechselseitigkeit auszeichnet, wie bereits im Abschnitt „Grundlagen der Kommunikation“ aufgezeigt wurde. Die Begriffe Kommunikation und Interaktion werden gelegentlich auch synonym verwendet. Das ist nicht uneingeschränkt zulässig, denn sie stehen zueinander in Beziehung. Mit Kommunikation, der Wortbedeutung nach eher Verständigung, sind in erster Linie inhaltliche Bedeutungsprozesse gemeint (vgl. [Mal98], S. 43). Interaktion dagegen meint den Charakter und Handlungsablauf sozialer Beziehungen (vgl. [Jäc95], S. 463). Durch Interaktion werden die „Formen und der Ablauf kommunikativer Handlungen angezeigt, d.h. Kommunikation und Interaktion bedingen sich gegenseitig“ ([Sch99], S. 173). Wenn Interaktion folglich als Synonym für soziales Handeln steht, kann Kommunikation als Interaktion mit Zeichen und Symbolen definiert werden. Um eine Definition für zwischenmenschliche Kommunikation von Angesicht zu Angesicht zu finden, die sowohl soziale Beziehungen als auch das Merkmal der Verständigung vereint, kann man Kommunikation als verbales und nonverbales Miteinander-in-Beziehung-Treten von Menschen zum Austausch von Informationen bezeichnen. 2.2.2 Kommunikationskanäle Nicht nur in der zwischenmenschlichen Kommunikation wird über mehrere Kanäle kommuniziert. Kommunikationskanäle sind die menschlichen Sinnesmodalitäten, mit deren Hilfe die Kommunikation und die Kommunikationsspartner wahrgenommen werden können. Dabei wird zwischen dem auditiven, dem visuellen, dem taktilen, dem olfaktorischen, dem thermalen und dem gustatorischen Kanal unterschieden. 22 2.2 Kommunikationswissenschaften • Über den auditiven Kanal wird gesprochene Sprache bzw. Information wahrgenommen, wobei paraverbale Komponenten wie Stimmvariation, Sprechgeschwindigkeit und Sprechrhythmus sowie extralinguistische Elemente wie Lachen, Weinen, Husten, Rülpsen und Gähnen zugleich wahrgenommen werden. • Der visuelle Kanal vermittelt die meisten nonverbalen Informationen. Dazu gehören: Mimik (Gesichtsausdruck), Gestik, Körperhaltung, raumbezogenes Verhalten (wie interpersonale Distanz, Annäherungs- und Vermeidungstendenzen) sowie äußere Attribute (Körpergröße, Kleidung, Frisur). Eine wichtige Rolle in der visuellen Kommunikation spielt der Blickkontakt, wie Bergler und Six unter Bezugnahme auf Koenig festhalten: „Das Auge sieht nicht nur, es schaut auch an und wird umgekehrt selbst angeschaut, es ist Sender und Empfänger zur gleichen Zeit.“ ([Koe70], S. 183). Daher hat das Auge eine wichtige Intimfunktion für zwischenmenschliche Kommunikation (vgl. [BS79], S. 28ff.). Der visuelle Kommunikationskanal ist im Hinblick auf die Verarbeitungsgeschwindigkeit und die Relevanz für den Menschen den anderen Kanälen weit überlegen und dementsprechend auch von besonderer Relevanz für das vorliegende Thema. • Über den taktilen Kanal wird Körperberührung wahrgenommen. Dazu zählt unter anderem der Händedruck bei Begrüßungen, Verabschiedungen, Beglückwünschungen und Vertragsvereinbarungen ebenso wie Körperberührungen in der Intimkommunikation. • Eng verbunden mit dem taktilen ist der thermale Kanal, über den auch die Körperwärme des Kommunikationspartners wahrgenommen werden kann. • Der olfaktorische Kanal vermittelt Gerüche, die von Kommunikationspartnern ausgehen und für das Gelingen oder Misslingen von Kommunikation von Bedeutung sein können. Beispielsweise können unangenehme Körpergerüche oder auch angenehme Pheromone zur Kommunikation beitragen. • Weiterhin gibt es den gustatorischen Kanal, der Geschmacksempfindungen vermittelt. Solche Geschmacksempfindungen können beispielsweise von einem guten Essen ausgehen, das für eine Kommunikation positiv wäre. Die Menschen benutzen ihre Kommunikationskanäle nicht einzeln. Zwischenmenschliche Kommunikation benutzt zumeist nicht nur einen, sondern „gleichzeitig mehrere dieser Kanäle“ ([BB94], S. 40) und „ je mehr Kanäle in der Kommunikation jeweils zusammenwirken, desto höher ist der Grad der Präzision und der Reflexivität der Kommunikation“ ([Sch90], S. 132). Als besonderes Beispiel für Multimodalität oder auch Mehrkanalität nennt Schreiber den Kuss, „bei dem im [...] optimalen Fall der taktile (Berührung), gustatorische (Geschmacksempfindungen), olfaktorische (Riechen von Körpergeruch), thermale (Wärmeempfindungen), optische (sektoraler Gesichtsausdruck) und der akustische beteiligt sind“ ([Sch90], S. 132). 23 2 Grundlagen und Begriffe Die Aussagen von Bentele und Schreiber lassen hier bereits erste Rückschlüsse auf den Einfluss von Kommunikation auf den Grad von Präsenz in Virtuellen Welten zu. Präsenz meint laut Abschnitt 2.1 die gesetzesgemäße Wahrnehmung von Aktion und Reaktion in Virtuellen Welten. Je mehr Kommunikationskanäle benutzt werden, umso höher ist der Grad der Reflexivität und der Präzision der Kommunikation. Äquivalent gilt dies für den Grad der Präzision durch den erhöhten Grad an Realismus. Wenn aber nur der visuelle und auditive Kanal untersucht werden, ist es auch dort schon möglich, große Distinktheit der Qualitäten von Kommunikation zu finden. 2.2.3 Verbale und nonverbale Kommunikation Für Bergler und Six ([BS79], S. 35) ist Kommunikation „immer die integrierte Einheit verbaler und nonverbaler Kommunikation“. In diesem Zusammenhang verweisen sie auf unterschiedliche Vermittlungsleistungen verbaler und nonverbaler Kommunikation. So vermittelt verbale Kommunikation in erster Linie Tatsachen, Meinungen, Probleme und Sachverhalte. Sie wird nicht ausschließlich, aber primär kognitiv erfasst. Die nonverbale Kommunikation stellt oft erst die eigentliche emotionale Beziehung zum Angesprochenen her. Sie wird stark gefühlsbezogen wahrgenommen. Von nonverbaler Kommunikation gehen folglich wichtige Informationsübertragungen aus ([BS79], S. 33). Nonverbale Kommunikation • reguliert unmittelbar soziale Kontakte: weckt Sympathie (und damit erhöhte Kontaktbereitschaft) oder Antipathie; • bereitet den Zuhörer auf kommende verbale Information vor; • hält das Interesse des Zuhörers wach: weckt Aufmerksamkeit und Bereitschaft zur weiteren Informationsaufnahme und Kommunikation; • ist die glaubwürdigere Information im Falle auftretender Diskrepanzen zwischen verbaler und nonverbaler Information; • unterstützt die verbale Kommunikation; • ersetzt und ergänzt verbale Kommunikation. Zwischenmenschliche Kommunikation von Angesicht zu Angesicht bedient sich in der Regel mehrerer Kommunikationskanäle. „Nicht isolierte, abstrakte Worte und Sätze werden wirksam, sondern die verbalen Elemente werden immer von bestimmten Menschen, mit einem charakteristischen Äußeren, einem spezifischen Attraktivitätswert, in einer spezifischen stimmlichen Artikulation, Stimmlage, mit einer spezifischen Mimik, Gestik usw. vorgetragen.[...]. Diesem nonverbalen Verhalten [...] kommt im Sinne von sozialen Techniken zentrale 24 2.2 Kommunikationswissenschaften Bedeutung für die psychologische Wirksamkeit der eigentlichen Sachinformation zu“ ([BS79], S. 35). Im Unterschied zur Kommunikation von Angesicht zu Angesicht ist technisch vermittelte Kommunikation oder computervermittelte Kommunikation von der Zahl der benutzten Kanäle und Sinne betrachtet eine eingeschränkte Kommunikation. Deshalb wird beim Lesen der visuelle Kanal beansprucht, beim Radio Hören der auditive Kanal, beim Fernsehen sowie teilweise in der computervermittelten Kommunikation visueller und auditiver Kanal gleichzeitig. In Telekommunikation, Massenkommunikation und computervermittelter Kommunikation gibt es bislang keine Berührungen, keine Wärme- oder Geschmacksempfindungen und auch keine Gerüche. Allerdings drängt die Forschung darauf, Berührungs- sowie Geruchskommunikation computervermittelt zu ermöglichen (vgl. [NNHM01] und [LLN98]). Menschliche Kommunikation definiert sich also durch eine Vielfalt immaterieller wie materieller Vermittlungsformen und -möglichkeiten. Von Harry Pross stammt der 1972 unternommene Versuch, die mediale Vielfalt zu differenzieren. Er unterscheidet zwischen primären, sekundären und tertiären Medien ([Pro72], S. 10ff.). • Primäre Medien sind demzufolge die Medien des „menschlichen Elementarkontaktes“. Dazu gehören die Sprache sowie nichtsprachliche Vermittlungsinstanzen wie Mimik, Gestik, Körperhaltung und Blickkontakt. All diesen Medien ist gemeinsam, dass kein Gerät zwischen die Kommunikationspartner geschaltet ist „und die Sinne der Menschen zur Produktion, zum Transport und zum Konsum der Botschaft ausreichen“([Pro72], S. 145). • Sekundäre Medien sind die Medien, welche auf der Seite des Senders technische Geräte erfordern, nicht aber beim Empfänger zur Aufnahme der Mitteilung. Gemeint sind Rauchzeichen, Feuer- und Flaggensignale sowie alle jene menschlichen Mitteilungen, die Schrift, Druck oder eine anderen Form von materieller Speicherung und Übertragung benötigen. • Mit tertiären Medien sind diejenigen Kommunikationsmittel gemeint, bei denen sowohl auf der Seite des Senders sowie auf der Seite des Empfängers ein technisches Mittel erforderlich ist. Dazu gehören der gesamte Bereich der Telekommunikation sowie die elektronischen Massenmedien wie Radio, Fernsehen, Film, Schallplatte, MusikKassette, CD, Videotechniken, Computer und Datenträger unterschiedlichster Art. Kommunikation von Angesicht zu Angesicht bedient sich also der hier dargelegten Kategorien nach den primären Medien. Ihre wichtigsten Kanäle sind verbale und nonverbale Vermittlungsformen. Kommunikation ist erfolgreich, wenn folgende drei Bedingungen erfüllt sind: wenn die zu vermittelnden Gedanken, Absichten oder Bedeutungen des „immateriellen Bewusstseinsgehaltes“ eines Kommunikators in ein kommunizierbares verbales und nonverbales 25 2 Grundlagen und Begriffe Zeichensystem umgewandelt werden können, wenn sich die Codes bzw. Zeichen und Chiffren in „physikalische Signale“ transformieren lassen und von den Sinnesorganen des Rezipienten wahrgenommen werden, oder wenn der Rezipient die empfangenen Zeichen deuten, decodieren und dechiffrieren sowie durch Interpretation die vermittelten Inhalte erschließen kann (vgl. [Mer77], S. 46). Je stärker sich die tertiären Kommunikationsmittel der Realität annähern und je mehr Kommunikationskanäle in die computervermittelte Kommunikation Einzug hält, desto erfolgreicher wird die computervermittelte Kommunikation die Angesicht-zu-Angesicht-Kommunikation emulieren. Da ihr die meisten Kommunikationskanäle zur Verfügung stehen, ist auch der Informationsgehalt am größten. Daraus resultiert eine höhere Qualität der Kommunikation. Diese Art der Kommunikation zu emulieren, sollte demnach Aufgabe von Virtuellen Welten sein. Nicht nur der Qualität der Kommunikation wegen, sondern auch um den Grad des Anwendererlebnisses in der Virtuellen Welt zu erhöhen. Damit dies aber möglich wird, ist es erforderlich, noch ein weiteres Fachgebiet zu untersuchen. Das maschinelle Sehen, die Computer Vision, hift weitere Kommunikationskänäle zu erschliessen und vor allem die nonverbale Kommunikation in die computervermittelte Kommunikation mit einzubeziehen. 2.3 Computer Vision Computer Vision wird ins deutsche als maschinelles Sehen übersetzt. Aus dem Begriff ergibt sich, dass es sich um die Analyse von Lichtwellen handelt und vom menschlichen Sehen abgeleitet wird. Um die Lichtwellen aufzufangen, bedarf es der Apparatur „Kamera“, welche dem menschlichen Auge nachempfunden ist. Der Aufbau der Kamera ist in Abbildung 2.8(b) abgebildet und dem Auge gegenüberstellt. Sie besteht aus den Hauptkomponenten Linse, Blende und Sensor. Das Licht fällt durch die Linse ein, wird dort gebündelt und durch die Blende geleitet. Daraufhin wird es durch eine zweite Linse auf den Sensor fokusiert. 26 2.3 Computer Vision Iris Retina Linse Sehnerv (a) Das Auge Linse Blende Sensor (b) Die Kamera Abbildung 2.8: Vergleich von Auge und Kamera Die Sensoren der Kamera messen die wellenlängenabhängige Intensität des durch die Blende einfallenden Lichtes und digitalisieren das Gemessene in Werte zwischen 0 und 255. Pro Pixel gibt es drei Sensoren, welche unterschiedliche spektrale Empfindlichkeiten besitzen, jeweils für die Wellenlängenbereiche Rot (650-750 nm), Grün (490-575 nm) und Blau (490-575 nm). Ein digitales Bild wird aus Pixeln aufgebaut und je nach Format des Bildes entstehen unterschiedlich viele Werte pro Pixelpunkt. In einem Schwarz-Weiß Bild gibt es beispielsweise nur einen Grauwert pro Pixelpunkt, während in einem Bild des RGB-Formats drei Werte pro Pixelpunkte zugewiesen werden. Die Werte der Pixel werden dann auf einem Ausgabemedium, wie Drucker oder Bildschirm, wieder angezeigt (siehe Abbildung 2.9 für das RGB-Format). In der Computergrafik werden Informationen aus Form und Aussehen, welche vorher definiert werden, zu einem solchen Bild entwickelt. Dieser Vorgang nennt sich rendern15 . Die Computer Vision versucht genau das Gegenteil. Hier geht es darum, aus Bildern Form und Aussehen abzuleiten. 15 Bedeutung: Berechnung eines Bildes aus Rohdaten 27 2 Grundlagen und Begriffe Abbildung 2.9: Aufbau eines Bildes Menschen erkennen die dreidimensionale Struktur der Welt mit großer Leichtigkeit. So fällt es einfach, die Form und das Aussehen einer Blume zu erfassen und die Blume jederzeit vom Hintergrund zu unterscheiden. Wenn der Mensch auf ein Gruppenfoto schaut, fällt es ihm leicht die Menschen im Bild zu zählen, ihnen Namen zu geben und selbst die Emotionen aus ihren Gesichtszügen zu erraten. Wahrnehmungspsychologen haben Jahrzehnte damit verbracht zu verstehen, wie das menschliche visuelle System funktioniert. Auch wenn optische Illusionen das Verständnis des Systems vorran gebracht haben, ist eine komplette Erlärung der menschlichen visuellen Wahrnehmung noch unerreicht (vgl. [Mar82] und [LH08]). Forscher im Bereich der Computer Vision haben parallel mathematische Techniken entwickelt um die dreidimensionale Form und das Aussehen von Objekten aus Bildern zu rekonstruieren. Es existieren heutzutage zuverlässige Techniken, 3D-Modelle aus einer Menge von Tausenden, sich teilweise überlappenden Fotos, zu generieren ([SSS06]). Ab einer bestimmten Menge von Bildern eines Objektes ist es möglich, dichte 3D-Oberflächen-Modelle mit Stereo-Matching ([GSC+ 07]) zu erstellen. Dank der Forschung kann die Position eines Menschen in Bewegung ([SB03]) und vor einem komplexen Hintergrund erkannt werden. Mit mäßigem Erfolg ist es auch schon möglich, die Namen von Personen auf einem Foto, aus einer Kombination von Gesicht, Kleidung und Haar, zu erkennen ([SZS06]). Doch trotz all dieser Fortschritte ist der Wunsch nach einem Computer, der Bilder interpretieren kann, noch in weiter Ferne (vgl. [Sze10], S. 3). Im Bereich der Computer Vision wird versucht, die Welt aus einem oder mehreren Bildern zu rekonstruieren, so zum Beispiel Eigenschaften wie Form, Lichtverhältnisse und Farbverteilungen. Es ist erstaunlich, dass Menschen und Tiere dazu mühelos in der Lage sind, während Computeralgorithmen fehleränfällig sind und oftmals das Ziel nicht erreichen. Dies liegt vor allem an dem Problem, dass nicht vorhandene Informationen rekonstruiert werden müssen und dadurch mit komplexen mathematischen Problemen verbunden sind (vgl. [Sze10], S. 3). Die Computer Vision wird in dieser Arbeit dazu verwendet, Eingaben des Menschen zu analysieren und zu interpretieren. Wie dargestellt ist es eine mathematische Disziplin, welche 28 2.4 Zusammenfassung gerade erst seit vier Jahrzehnten existiert und im Vergleich zu anderen Wissenschaften in den Kinderschuhen steckt. Trotzdem ist ihre Anwendung zur Anreicherung von Kommunikation in Virtuellen Welten bereits unverzichtbar. 2.4 Zusammenfassung In den Grundlagen der Diplomarbeit konnten die wichtigen Begriffe „Virtuelle Welt“, „Avatare“ sowie „Kommunikation“ und deren Zusammenhang mit der nonverbalen Kommunikation erklärt werden. Virtuelle Welten sind ein synchrones, persistentes Netzwerk von Menschen, welche durch Avatare repräsentiert werden. Generiert und dargestellt werden sie von vernetzten Computern. Objekte der Virtuellen Welt besitzen damit keine Stofflichkeit. Sie sind virtuell und synthetisch generiert. Durch die Integrierung von Videos und anderen Medien müssen Virtuelle Welten nach Milgram allerdings der erweiterten Virtualität zugeordnet werden, da hier auch reale, also stoffliche, Objekte abgebildet werden. In Virtuellen Welten wird versucht, das Anwendungserlebnis zu verbessern, auch wenn diese Konzepte oft mit Immersion verwechselt werden. Dazu wird unter anderem untersucht, wie Avatare Anwendung und Kommunikation verbessern können. Avatare sind digitale Repräsentationen, welche von Menschen in Echtzeit kontrolliert werden. Sie sind der virtuelle Stellvertreter und Teil der visuellen Darstellung, welche vom Client-Computer berechnet wird. Der Client analysiert die Eingaben von Menschen und sendet sie als Ereignisse an den Server. Der Server berechnet daraufhin den Zustand der Virtuellen Welt und reagiert auf die Ereignisse der Clients. Die Ereignisorientierung bildet also die Kausalität der realen Welt ab. So befiehlt der Anwender über eine Eingabe dem Client, dass sich der Avatar bewegen soll. Der Server bekommt die Anfrage vom Clienten. Er ändert den Zustand des Avatars auf „laufen“ und übermittelt allen Teilnehmer der Virtuellen Welten, dass sich der Zustand des Avatars von „stehen“ auf „laufen“ geändert hat. Dank diesem Mechanismus ist es möglich, über Avatare zu kommunizieren. Kommunikation basiert auch auf Kausalität und ist der dritte wichtige Begriff dieser Arbeit. Kommunikation ist verbale oder nonverbale Interaktion, die durch Zeichen und Symbole vermittelt wird. Diese Zeichen und Symbole werden über die fünf Sinne des Menschen aufgenommen und verarbeitet. In der zwischenmenschlichen Kommunikation wird zwischen Sender und Empfänger unterschieden. Der Sender verschlüsselt die Information und schickt sie dem Empfänger. Dieser entschlüsselt und interpretiert sie. In Virtuellen Welten wird über Avatare miteinander kommuniziert. Diese computervermittelte Kommunikation ist den tertiären Medien zuzuordnen. Der Sender kommuniziert über einen Avatar mit einem weiteren Avatar, welcher den Empfänger repräsentiert. Erstrebenswert ist aber die Angesicht-zu-AngesichtKommunikation. Sie ist diejenige zwischenmenschliche Kommunikation mit der höchsten Informationsdichte und es muss Ziel der Virtuellen Welten sein, sich ihr anzunähern. 29 2 Grundlagen und Begriffe Dazu wurde die Computer Vision eingeführt. Das maschinelle Sehen ermöglicht es dem Computer, die elektromagnetischen Wellen zu analysieren, welche von einer Kamera auf ein Bild projiziert werden. Die Bilder kann der Computer über mathematische Algorithmen und Modelle interpretieren. Mit dieser Technologie kann unter anderem die nonverbale Kommunikation zwischen Menschen digitalisiert werden, um sie dann auf einen Avatar abzubilden. Aufbauend auf diesen Grundlagen muss nun untersucht werden, auf welchem Stand sich die Forschung befindet. Es wird erklärt, welche Versuche unternommen werden, um Kommunikation in den virtuellen Raum zu übertragen. 30 3 Analyse virtueller Kommunikation In der Übersicht des aktuellen Standes der Forschung aus Kapitel 3.3 zeigt sich, welche Ansätze verfolgt werden, um computervermittelte Kommunikation zu verbessern. In der vorliegenden Arbeit wird ein weiteres Konzept entwickelt. Hierfür muss vorher analysiert werden, wie in Virtuellen Welten überhaupt kommuniziert wird. Ist der Stand der Kommunikation aufgezeigt, kann darauf aufbauend mit der Bewertung und Einordnung virtueller Kommunikation begonnen werden. In diesem Kapitel wird zuerst erläutert, wie Avatare funktionieren, was sie ausmacht und wie ihnen Leben eingehaucht wird. Nachdem diese technischen Details geklärt sind, wird darauf eingegangen, welche Aspekte der Kommunikation in Virtuellen Welten genutzt werden. Durch die technischen Beschränkungen von Avataren und der virtuellen Kommunikation ergibt sich der Umgehungsansatz, welcher auf die Unterteilung von Interaktion in Interaktionstypen zurück greift. 3.1 Avatare Avatare wurden in Kapitel 2.1.1 als Repräsentanten des Menschen in der Virtualität vorgestellt. Sie werden benutzt um mit und in der Virtuellen Welten zu interagieren. Der Avatar präsentiert die Identität eines Nutzer und zeigt seine Erreichbarkeit an. Auch unterstützt der Avatar den Menschen bei der Navigation und Orientierung im dreidimensionalen Raum. Rumbke hat diese Begriffe in [Rum05] näher untersucht. Dabei konnte er drei unterschiedliche Orte der Wechselwirkung in einer Virtuellen Welt ausmachen: Ort der Navigation, Ort der Interaktion und Ort der Repräsentation. Der Ort der Navigation ist gleichzeitig der Ort des Fensters in die Virtuelle Welt. Dieses Fenster wird als Kamera bezeichnet, da es die Welt wie durch eine Kamera aufnimmt und auf dem Computer abbildet. Der Ort der Interaktion wird auch als Cursor bezeichnet. Hier wird die Handlung und die Interaktion mit der Virtuellen Welt generiert. Der Cursor wird meist durch eine Tastatur oder eine Maus gesteuert. Der Ort der Repräsentation ist der Ort, an dem der Avatar visualisiert wird. Der Ort der Repräsentation ist gleichzeitig der Ort der visuellen Kommunikation. Die Position, das Aussehen und die Bewegung des Avatars sind wichtige Indikatoren für virtuelle 31 3 Analyse virtueller Kommunikation zwischenmenschliche Kommunikation. Groh und Zavesky haben in [GZ08] das Bild des Avatars und dabei auch die Bedeutung dessen Position für die Kommunikation untersucht. Hier konnten sie wichtige Vektoren erarbeiten, welche für die Kommunikation von Relevanz sind. Darunter fallen der Körpervektor, der Gesichtsvektor, der Torsovektor und der Beinvektor. Je nach Kommunikation können aus diesen Vektoren bereits wichtige nonverbale Indizien gezogen werden. Sie sind in der Abbildung 3.1 aufgezeigt. Körpervektor Gesichtsvektor Torsovektor Beinvektor Abbildung 3.1: Vektoren der Avatarposition nach [GZ08] Neben den Avatarvektoren sind weitere Eigenschaften der Repräsentation wichtig für die Kommunikation. In [Bla02] werden zwei Eigenschaften in Bezug auf die Eigenrepräsentation von Menschen untersucht: die Ähnlichkeit im Verhalten des Avatars und die Ähnlichkeit im Aussehen des Avatars. Mit der Ähnlichkeit des Aussehens beschäftigt sich vor allem die Computergrafik. Wie in Abbildung 3.2 zu sehen ist, gibt es bereits sehr detailgenaue menschliche Computermodelle. Eigenschaften von physischen Modellen wie Licht, Reflektion, Detail und Unebenheit können sehr realitätsnah modelliert und berechnet werden. Auch wenn diese Berechnungen noch bis zu Stunden dauern können, ist es durch das Ausnutzen bestimmter Eigenschaften des menschlichen visuellen Systems möglich, hochdetaillierte 3D Modelle in Virtuelle Welten zu übertragen. Der zweite Punkt ist die Ähnlichkeit im Verhalten. Hier gibt es weitaus größere Probleme in der Realitätsnähe. Wenn die Modelle in die Virtuelle Welt übertragen sind, müssen sie belebt, also animiert, werden. Im Folgenden wird näher erklärt, wie Avatare in Virtuellen Welten repräsentiert und animiert werden. 3.1.1 Modellierung Wie in Kapitel 2.1.2 aufgezeigt, berechnen die Clienten die Grafik der Virtuellen Welt und damit auch die visuelle Repräsentation der Avatare. Eine Virtuelle dreidimensionale Welt besteht normalerweise aus Vielecken, welche Polygone genannt werden. Diese Polygone sind 32 3.1 Avatare (a) CG Rendering [Wys07] (b) CG Rendering [Oli07] Abbildung 3.2: Beispiele für realitätsnahe 3D Modelle zu einem Netz verbunden und bilden das Polygonnetz oder auch das Polygonmesh. In Abbildung 3.3(a) ist ein solches Polygonnetz abgebildet. Die Flächen innerhalb der Polygone werden aus dem englischen übernommen und Faces genannt, so wie die Ecken der Vielecke Edges heißen. Polygonnetze haben an jedem Face einen Normalenvektor, der orthogonal zu dem Face steht. Dieser Normalenvektor wird für die Lichtberechnung auf dem Polygonnetz genutzt. In den Abbildungen 3.3(b) und 3.3(c) ist zu sehen, wie die Normalen an den Ecken benutzt werden um Lichtreflexionen zu generieren. Die Lichtwerte der Faces werden zu den Ecken hin interpoliert, um die eigentlich eckige Polygone runder erscheinen zu lassen. (a) Polygonnetz (b) Polygonnetz mit Norma- (c) Interpolierte Lichtreflexilen on Abbildung 3.3: Polygonnetz eines weiblichen Kopfes Das Erstellen von Polygonnetzen wird modellieren genannt. Über den Vorgang des Texturieren 33 3 Analyse virtueller Kommunikation lassen sich den Polygonen, mit Hilfe einer tabellarischen Zuordnung die sich Mapping nennt, auch Farben und Texturen zuordnen. Beim UV-Mapping werden zum Beispiel bestimmte Bildregionen auf Oberflächenregionen des Polygonmeshes abgebildet. In der Abbildung 3.2 des vorigen Abschnittes ist zu sehen, dass auch kleine Unebenheiten der Haut, die Lichtdurchlässigkeit der Haut und selbst Lichtreflektionen der Augen modelliert werden können. Hierfür werden verschiedene Texturen und Materialeigenschaften zu sogenannten Shadern verbunden. In Abbildung 3.4 ist ein Shader abgebildet und dessen Textur (Diffuse-Map), sowie dessen Tiefentextur (Bump-Map). Shader vereinen verschiedene weitere Texturen, welche Lichteigenschaften (Normal-Map) und Materialeigenschaften (Specular-Map) abbilden, um dadurch Tiefen- und Detaileindrücke zu verstärken. Um fotorealistische Bilder wie Abbildung 3.2(a) und 3.2(b) aus dem vorigen Abschnitt zu erhalten, werden die Shader noch weitaus komplexer. Das Generieren der finalen Darstellung wird rendern oder Bildsynthese genannt. Aus den Polygonnetzen einer Szene wird ein Bild berechnet. Dabei wird zuerst die Verdeckung der Objekte untereinander berechnet. Darauf aufbauend werden die Objektoberflächen und deren Materialeigenschaften (Shading) simuliert, um dann die Lichtverhältnisse in der Szene zu rendern. Wenn diese Berechnungen fertig sind, kann den einzelnen Pixeln im Bild eine Farbe zugeordnet werden. In Abbildung 3.2 waren bereits zwei gerenderte Bilder zu sehen. (a) Diffuse-Map des Shaders eines Gesichtes (b) Bump-Map des Shaders eines Gesichtes Abbildung 3.4: Diffuse-Map und Bump-Map eines Avatars 34 3.1 Avatare 3.1.2 Animationen Avatare bestehen aus Polygonnetzen. Im Abschnitt 2.1.2 wurde bereits darauf hingewiesen, dass Avatare über ein Charakter-Animations-System belebt werden. Das Polygonnetz muss bewegt werden. Dazu wird ein Skelett in das Polygonnetz gelegt. Dieses Skelett besteht aus Gelenken (Joints) und Knochen (Bones), wobei die Gelenke die Knochen verbinden. Ist ein Skelett in dem Polygonnetz positioniert, so kann den einzelnen Knochen ein Einflussgebiet auf die Ecken, Kanten und Flächen des Polygonnetzes zugeordnet werden. Damit werden das Skelett und das Polygonnetz verbunden und wenn ein Knochen bewegt wird, werden auch die damit verbundenen Ecken und Kanten bewegt. Zwei unterschiedliche Zustände eines Skelettes sind in den Abbildungen 3.5(a) und 3.5(b) dargestellt. Erstellt werden die Bewegungen über verschiedene Methoden. Die erste Methode sieht vor, dass die Figur für jedes einzelne Bild leicht verändert wird. So werden zum Beispiel Zeichentrickfilme erstellt, indem 24 Bilder für eine Sekunde Laufzeit gemalt werden, wobei in jedem Bild die Figur ein wenig bewegt wird. Ähnlich ist auch das Daumenkino aufgebaut. Diese Methode wurde zur Key-Frame Methode weiterentwickelt. Dabei wird eine Bewegung in mehrere lineare Bewegungen zerlegt. Jeweils am Anfang und am Ende einer linearen Bewegung wird ein Key-Frame gesetzt und die Zwischenschritte der Bewegung werden vom Computer durch Interpolation berechnet. Weiterhin gibt es die kinematischen Methoden, welche in der Robotik entwickelt wurden. Hier wird unter Vorwärtskinematik und inverser Kinematik unterschieden. Beide basieren auf einer kinematischen Kette, was bedeutet, dass die Gelenke und Knochen in einer bestimmten Hierarchie angeordnet werden. Bei der Vorwärtskinematik werden der Reihe nach die Gelenkparameter definiert und die Position des Endes der kinematischen Kette spezifiziert (End-Effektor). Bei der inversen Kinematik wird die Position des End-Effektors festgelegt und die dazu passenden Parameter der kinematischen Kette definiert. Wird ein Glied der kinematischen Kette bewegt, berechnet der Computer die Bewegung der benachbarten Glieder. Dies geschieht auf bestimmten Einschränkungen und Regeln, welchen die Gelenke der Kette unterliegen. Wird also beispielsweise die linke Hand bewegt, so berechnet der Computer die Bewegung des linken Armes und dann die folgende Bewegung des gesamten Oberkörpers. Sind die einzelnen Bewegungsschritte einer Animation definiert, berechnet die Kinematik die Zwischenschritte der Animation. Es gibt noch eine weitere Methode um Avatare zu animieren. Für die Animation von kleinen Bewegungen im Polygonnetz, wenn zum Beispiel ein Avatar reden soll, werden sogenannte Morpher verwendet. Morpher sind zwei Zustände des gleichen Polygonnetztes, bei welchen jeweils Teile der Ecken und Kanten unterschiedlich verschoben, rotiert oder skaliert sind. Diese zwei Zustände benutzt der Rechner wiederum, um die Zwischenschritte von dem einen Polygonnetz zum zweiten Polygonnetz zu interpolieren. Es ist 35 3 Analyse virtueller Kommunikation nun möglich, alle Zustände zwischen den beiden Polygonnetzen abzurufen. Als Beispiel dienen hier einzelne Mundbilder, welche in der Literatur als Viseme bezeichnet werden. Viseme sind Abbilder der Mundformen während des Sprechens. Beim Aussprechen von verschiedenen Vokalen und Lauten formen Menschen den Mund unterschiedlich, um den Ton und den Klang zu variieren. Diese Formen werden als Viseme modelliert und anschließend per Morpher ineinander überführt. Wenn mehrere dieser Viseme nacheinander abgespielt werden, sieht es aus, als würde der Avatar sprechen. (a) Avatar mit Skelett (b) Bein des Skelettes bewegt Abbildung 3.5: Skelett eines Avatars und dessen Auswirkung auf das Polygonnetz Animationen werden von einem Animator oder Animationsdesigner in einer dafür vorgesehenen Umgebung entwickelt und von einem Programmierer als grafische Einheit in die Virtuelle Welt eingebunden. Sie werden als feste Elemente integriert und haben auf die anderen Elemente der Umgebung keinerlei Auswirkung, da sie keine Effekte in der Logik der Virtuellen Welt nach sich ziehen. Rumbke nennt Animationen deshalb „bekannte Bewegungsmuster“, welche auch als „Icon für eine Bewegung“ (vgl. [Rum06], S. 10) bezeichnet werden können. Mit Icons meint Rumbke bildhafte Zeichen, welche vereinfachte Abbilder dessen sind, was sie repräsentieren sollen. Das Icon ermöglicht es, den Bedeutungsinhalt einer Bewegung zu vergegenwärtigen, obwohl die reale Bewegung nicht abgespielt wird. Damit schließt sich der Kreis zu Abschnitt 2.1.2. Animationen sind vorgefertigte Bewegungsmuster und damit Icons, 36 3.1 Avatare welche in eine Virtuelle Welt fest eingebunden werden. Dies bedingt die Aufgabenteilung zwischen Server und Client. Beiden müssen die gleichen Bewegungsmuster zur Verfügung stehen. Der Server kann die aktuelle Animation eines Avatars festlegen, welche dann von jedem Client abgespielt wird. Ein Client kann wiederum beim Server eine neue Animation anfordern, falls durch die Eingabe eines Nutzers der Avatar von einem Zustand auf einen anderen Zustand gesetzt wird. Jeder Avatar besitzt demnach eine bestimmte Anzahl an Bewegungsmustern. Wieviele Bewegungsmuster und ob neue Bewegungsmuster in die Virtuelle Welt eingeführt werden können, hängt von der jeweiligen technischen Umsetzung ab. Hier wird die große Beschränkung von nonverbaler Kommunikation in Virtuellen Welten offensichtlich. Technisch ist es nicht möglich, den Avatar frei zu bewegen und die Bewegung eines Menschen eins-zu-eins auf einen Avatar zu übertragen. Es müssen bestimmte Verhaltensmuster vorgespeichert werden, um dann das richtige Verhaltensmuster für eine entsprechende Situation abzuspielen. Die Bewegung wird das Icon für einen bestimmten Bedeutungsgehalt. Es kann der reinen Sachinformation Hilfe für deren Interpretation angeboten werden, in Form einer Animation. Wie in Abbildung 3.5(b) deutlich zu sehen ist, können Animationen unrealistisch wirken. In diesem Beispiel sind die Gelenke zwischen Torso und Beinen sowie zwischen Bein und Fuß unrealistisch dargestellt. Die Gelenke sind anpassbar, trotzdem ist es ein komplexes Problem menschenähnliche Avatare so aussehen zu lassen, dass man sie auch als realistisch anerkennt. Masahiro Mori hat in diesem Zusammenhang ein Phänomen entdeckt, welches er „Das unheimliche Tal“ (Uncanny Valley) nennt. 3.1.3 Das unheimliche Tal Masahiro Mori, ein Designer für Roboter, hat die Relation zwischen Menschenähnlichkeit und wahrgenommener Vertrautheit untersucht. Dabei steigt die Vertrautheit mit dem Anstieg der Ähnlichkeit bis zu einem bestimmten Punkt, an dem feine Unterschiede in Verhalten und Aussehen den irritierenden Effekt „des unheimlichen Tales“(Uncanny Valley) hervorbringen, welcher in Abbildung 3.6 dargestellt ist [Mor70]. Als Beispiel können auch die Abbildungen 3.2 dienen. Das Bild 3.2(b) erscheint unrealistischer als das Bild 3.2(a), es wirkt kälter und einer Puppe ähnlicher. Gemäß Mori wird der Effekt in der Bewegung noch deutlicher. MacDorman versucht daher in [Mac05], das unheimliche Tal für Bewegungen zu erklären. Wenn sich Kreaturen bewegen, wird es durch Menschen als Zeichen für Lebendiges wahrgenommen. Beginnen Androiden oder Charaktere sich zu bewegen, verstärkt sich daher Effekt des unheimlichen Tales. Bei Industrierobotern ist der Einfluss von Bewegung auf die Wahrnehmung sehr klein, weil er nur als Maschine und somit als leblos wahrgenommen wird. Wenn der Roboter aber programmiert wird, um menschenähnliche Bewegungen zu vollziehen, wird ein Maß an Vertrautheit erzeugt. 37 3 Analyse virtueller Kommunikation Menschenähnliche Bewegungen benötigen eine bestimmte Geschwindigkeit und Beschleunigung. Entspricht einer als lebendig zugeordneten Puppe also nicht genau den erwarteten Parametern, zieht dies ein Unwohlsein hervor sich. Wenn bespielsweise eine Handprothese bewegt wird, welche nach Grafik 3.6 am unteren Ende des unheimlichen Tales ist, wächst bei Menschen die Befremdlichkeit gegenüber dieser Prothese stark. Um den Effekt des unheimlichen Tales vorzubeugen, ist ein menschenliches Verhalten und Aussehen erstrebenswert. So werden Animationsfilme in Hollywood mit Autos und Tieren produziert1 , welche durch ihre menschenähnliche Gestik und Mimik starke Vertrautheit erzeugen können. Auf die Darstellung von Menschen wird aus Angst vor dem unheimlichen Tal noch verzichtet. MacDorman et al. versuchen in [Mac05] den Effekt des Uncanny Valley zu erklären. Dafür stellen sie die Theorie auf, dass die unheimlich aussehenden Androiden so irritierend sind, da sie Angst vor dem Tod hervorrufen. Der Mensch stellt Erwartungen an seinen Kommunikationspartner, wenn dieser erst einmal als solcher identifiziert ist. Verhält sich der Partner dann allerdings nicht entsprechend den Erwartungen und Normen an Aussehen und Bewegung, zieht dies ein Unwohlsein nach sich. In der Studie wird untersucht, ob ein Android im unheimlichen Tal die gleichen Mechanismen im Menschen nach sich ziehen kann, wie die Konfrontation mit dem Tod. Der Ausgang der Studie unterstützt diese Hypothese. Abbildung 3.6: Das Uncanny Valley Vor allem in der Filmindustrie wird die Forschung zum umheimlichen Tal vorrangetrieben. Im 1 vergleich http://www.pixar.com/featurefilms/cars/ und http://www.pixar.com/featurefilms/rat/ 38 3.1 Avatare folgenden Abschnitt wird das Verfahren vorgestellt, welches diesen Effekt für Bewegungen überwinden kann. 3.1.4 Motion-Capture Furniss hat in [Fur99] festgestellt, dass mehrere Begriffe für das Motion-Capture, was soviel bedeutet wie Bewegungsaufnahme, verwendet werden: Performance-Animation, PerformanceCapture, Virtual-Theatre und Digital-Puppetry sind nur einige davon. Deutlich wird schon aus den Bezeichnungen, dass es sich um die Aufnahme von menschlichen Bewegungen handelt, um damit Puppen wie in einem Puppentheater zu beleben. Motion-Capture wird in vielen verschiedenen Richtungen eingesetzt. In der Musik, in der Kunst und dem Tanz, der Zeichensprache, Gestenerkennung, der Rehabilitation und Medizin, der Biomechanik und in den Spezialeffekte-Studien Hollywoods. Mit der Weiterentwicklung der Motion-CaptureTechnologie hat sich in den ersten Jahren des 21. Jahrhunderts der Begriff Motion-Capture, kurz Mocap, durchgesetzt. In der wissenschaftlichen Arbeit von Dyer, Martin und Zulauf wird Motion Capture als Technik, die das Messen der Position und Orientation im physischen Raum ermöglicht, definiert. Die gemessenen Daten werden digitalisiert, damit sie im Computer weiter bearbeitet werden können [DMZ95]. Die Untersuchungsgegenstände sind dabei die menschlichen und nichtmenschlichen Körper, die Position von Kamera und Licht sowie andere Elemente in einer Szene. Es gibt verschiedene Wege die Bewegung aufzunehmen. Furniss hat hier zwischen optischen, magnetischen und mechanischen Aufnahmeverfahren unterschieden. Dies sind die Hauptaufnahmeverfahren, wobei damit noch nicht alle Möglichkeiten ausgeschöpft sind. Andere Aufnahmeverfahren basieren auf Sound, Biofeedback, eletrischen Feldern, Trägheit und Videoaufnahmen [Fur99]. In der Film- und Unterhaltungsindustrie werden hauptsächlich optische und videobasierte Motion-Capture-Verfahren benutzt. Diese basieren auf Markern, welche auf einen Anzug genäht werden. Diese Marker sind stark lichtreflektiv, sodaß sie die Kameras mit starken Kontrast zum Hintergrund aufnehmen können. Ein Schauspieler zieht diesen Anzug an und die Bewegungen werden von mehreren Kameras aufgenommen und verarbeitet. Durch die Konstellation der Marker in den verschiedenen aufgenommenen Bildern berechnet der Computer die Position und Orientierung des Anzuges im Raum. Diese Informationen werden auf ein Skelett, mit den gleichen Gelenken wie der Mensch sie besitzt, projiziert. Mit diesem Skelett können dann Avatare und Computerfiguren belebt werden. Eine neuere Entwicklung der Motion-Capture-Technologie ist das sogenannte markerlose Motion Capture. Hierfür wird mit mehreren Graubildkameras die Silhouette einer Person aufgenommen und aus den Bildern die Position und Orientierung im Raum berechnet. Die 39 3 Analyse virtueller Kommunikation markerlose Anlage an der Hochschule für Technik und Wirtschaft in Dresden ist in Abbildung 3.7 festgehalten. Abbildung 3.7: Motion-Capture Anlage Durch Ungenauigkeiten der Messtechnik kann es vorkommen, dass die gemessenen Positionen verwackeln. Wie bei traditionellen Animationen gibt es deswegen auch mehrere Phasen bei der Erstellung von Motion Capture Daten. Lisa Marie Naugle identifiziert sie wie folgt: Aufbauen des Studios mit Kameras und Hintergrund, Kalibrieren der Kameras, Aufnehmen der Bewegungen, Reinigen der Daten sowie Entfernen des Zitterns und Nachbearbeiten der Daten [Nau99]. Mit dem Motion Capture lassen sich die gesamtkörperlichen Bewegungen eines Menschen oder Tieres aufnehmen und auf virtuelle Computerfiguren übertragen. Problematisch ist dagegen die Aufnahme des menschlichen Gesichtes. Dies ist von besonderer Relevanz für die nonverbale Kommunikation über Mimik, wie zum Beispiel Hinweise auf Aufmerksamkeit, Zuneigung und Abneigung, welche vom Gesichtsausdruck abhängen. Die Lösung dieses Problems haben Image Metrics mit dem Emily Project2 vorgestellt. Es wurde eine Software entwickelt, welche markerlos das Gesicht einer Schauspielerin nachbildet und die Gesichtsausdrücke realitätsnah animiert. Die Nachbildung von Emily OB́rien ist in Abbildung 3.8 dargestellt. Die Aufnahme muss allerdings in einem Studio und mit einer genauen Kameraanordnung erfolgen. Dies schränkt wiederum die Beweglichkeit der Technologie stark ein. 2 Quelle: http://www.image-metrics.com/project/emily-project 40 3.2 Verbale und visuelle Kommunikation Abbildung 3.8: Das Emily Project von Image Metrics Performance Capture Der erste Film der über das unheimliche Tal vollständig triumphieren konnte, ist Avatar: Aufbruch nach Pandora von James Cameron3 . Für diesen Film wurde eine neuartige Technologie benutzt, das Performance Capturing. Zur Erstellung der animierten Avatare übertrug Cameron die Gesichtszüge der Schauspieler auf die Computerfiguren, um dann die gesamte Bewegung von Körper und Gesicht abzubilden zu können. Die Schauspieler können sich so frei bewegen und jede ihrer Bewegungen und Mimiken wird aufgenommen. Durch weitere immersive Techniken, wie die Darstellung in drei Dimensionen, die Computergrafik und eine genau angepasste Soundkulisse, zog dieser Film Millionen von Menschen in die Kinos4 . Eine Darstellung der Performance-Capturing-Technologie ist in Abbildung 3.9 zu sehen. Die Immersion in die Welt Pandoras wirkte auf einige Menschen sogar so stark, dass sie im nachhinein über Depressionen klagten5 . Die reale Welt wirkt gegen dieses bunte Spektakel geradezu grau und langweilig. Es wird gerade bei diesem Film deutlich, in welche Richtung sich die Kommunikation in Virtuellen Welten entwickeln muss. Das unheimliche Tal zu überbrücken ist ein wichtiger Schritt, um die Immersion der Virtuellen Welten zu erhöhen. 3.2 Verbale und visuelle Kommunikation Im vorherigen Abschnitt wurde erläutert, wie ein Avatar aufgebaut ist. Die Figur kann auch belebt werden, was nach der Theorie von Rumbke [Rum06] als Bewegungsmuster interpre3 vgl. http://www.avatar-derfilm.de/ vgl. http://de.wikipedia.org/wiki/Avatar__Aufbruch_nach_Pandora 5 vgl. http://www.derwesten.de/kultur/Depressionswelle-nach-Avatar-id2451221.html 4 41 3 Analyse virtueller Kommunikation (a) Schauspieler (b) Avatar Abbildung 3.9: Performance Capturing für den Film Avatar tiert wird, welches den aktuellen Zustand und Bedeutungsgehalt der Figur abbilden soll. So zum Beispiel ob die Figur läuft oder steht, ob sie rennt oder fliegt. Damit lassen sich Teile der nonverbalen Kommunikation transferieren. Welche Aspekte der Kommunikation in die Virtualität übertragen werden, soll in diesem Abschnitt untersucht werden. 3.2.1 Text Die Kommunikation in Virtuellen Welten begann über Text. Die ersten Spiele mit vernetzten Computern und Avataren basierten auf Textadventuren. Roy Trubshaw entwickelte das Spiel Multi-User-Dungeon (MUD), welchem ein ganzen Genre mit dem gleichen Namen folgen sollte [Kee97]. Ein Beispiel für ein deutsches MUD, das MUD Silberland, ist in Abbildung 3.10 dargestellt. Um Informationen zu übermitteln wird der Text wie in einem interaktiven Buch präsentiert. Verschiedene nonverbale Hinweise müssen so über den Text transportiert werden. In dem Beispiel aus Abbildung 3.10 wird der Figur Bürgerin das Attribut klein zugeordnet. Durch die Weiterentwicklung der Virtuellen Welten zum Grafischen, hat sich auch die Rolle des Textes geändert. Figurale Attribute wie klein sind nicht mehr nötig, und so hat sich der Text zum reinen Chat-System weiterentwickelt und wurde hauptsächlich benutzt, um verbale Informationen geschrieben zu übermitteln. Da die Ausdrucksmöglichkeiten über einen Chat sehr beschränkt sind und eine Abbildung von Stimmung und Gefühl nur durch ausführliche textuelle Beschreibung möglich ist, haben sich sogenannte Emoticons entwickelt. Das Wort Emoticon ist eine Wortschöpfung aus den beiden Begriffen Emotion und Icon. Emoticons sind eine Zeichenfolge aus Satzzeichen, welche als Smilies interpretiert werden, um Stimmungs- und Gefühlszustände auszudrücken. Bekannte Beispiele sind „:-)“ für Freude und „:-(“ für Traurigkeit. In neueren Chat- und E-MailProgrammen werden diese Smileys in Grafiken umgesetzt, um sie besser lesbar zu machen. Virtuellen Welten wie Second Life und World of Warcraft sind noch einen Schritt weiter 42 3.2 Verbale und visuelle Kommunikation Abbildung 3.10: deutsches MUD Silberland gegangen. Durch die Repräsentation von Menschen durch dreidimensionale Avatare wird das Emoticon erkannt und darauf basierend ein bestimmtes Bewegungsmuster, eine bestimmte Animation, abgespielt. Dazu zählt zum Beispiel die Animation von Lachen oder Weinen nach der Eingabe von „:-)“ oder „:-(“. Neben Emoticons hat sich der Status als textuelle Stimmungsanzeige durchgesetzt. Durch das Setzen eines Status ist man in der Lage, einen Zustand an den eigenen Namen, welcher dort als textueller Avatar begriffen werden kann, anzuhängen. So zum Beispiel „Nameŝad“, was für eine traurige Stimmung stehen kann. Der Status wird in Virtuellen Welten wiederum über Animationen dargestellt. Über ihn kann auch auf die Aufmerksamkeit geschlossen werden. Wird der Status auf „afk“ gesetzt, was bedeutet, dass gerade niemand am Rechner ist, so wird dies in Chats zum Beispiel als „Nameâfk“ angezeigt. In Virtuellen Welten werden dazu Posen der Avatare benutzt. So setzt sich der Avatar in World of Warcraft auf den Boden, wenn der Nutzer seinen Status auf „afk“ setzt. In Second Life fällt der Avatar dagegen wie eine leblose Puppe zusammen, was darauf hinweisen soll, dass der puppenspielende Nutzer gerade nicht zur Verfügung steht. Weitere Status sind zum Beispiel „nicht da“, „bitte nicht stören“ oder „beschäftigt“. 3.2.2 Sprache Zu Beginn des 21. Jahrhunderts hat sich die Bandbreite der Internettechnologien soweit verbessert, dass auch Sprache und Musik in Echtzeit übertragen werden können. Diese Übertragung wird streamen genannt, da die Informationen in kleine Stücke zerhackt werden und über das Internet fließen, um dann wieder zusammengesetzt und abgespielt zu werden. Dadurch ergibt sich eine schnellere und effizientere Übertragung von Informationen, da die verbale Kommunikation eins zu eins in Virtuelle Welten übertragen wird. Umständliches Beschreiben persönlicher Zustände, Weiterleiten von Befehlen und allgemeiner Inhalte über Text ist nicht 43 3 Analyse virtueller Kommunikation mehr nötig. Sprache ist nicht nur verbale Übertragung von Informationen. Schon wenn man jemanden sprechen sieht, ohne denjenigen zu hören, ist der Mensch dazu in der Lage zu erkennen, dass gesprochen wird. Es gibt ein visuelles Feedback: die Bewegung des Mundes. Diese Bewegung ist auch in der Virtualität von Relevanz, da sie Teil der Kommunikation ist. Cassell et al. haben bereits 1994 ein komplexes System entwickelt, um auf Basis eines Dialoges automatische Animationen zu generieren [CPB+ 94]. Diese automatisierten Computerfiguren sollen menschliche Angesicht-zu-Angesicht Konversationen nachbilden. Dazu wurden die einzelnen Mundformen des Menschen, sogennante Viseme, zugehörig zu entsprechenden Phonemen visualisiert, wie in Abbildung 3.11 zu sehen ist. Je nachdem welche Phoneme sich aus dem Dialog ergeben, verformt sich der Mund der Figuren entsprechend. Die Lippensynchronisation in Verbindung mit der auditiven Übertragung ist dabei eine direkte eins-zu-eins Übertragung der Kommunikation. Abbildung 3.11: Verschiedene Viseme 3.2.3 Gesten In Virtuellen Welten gibt es neben der direkten verbalen Kommunikation und der textuellen Kommunikation auch nonverbale Kommunikation über Posen und Gesten. Diese greifen auf das Animationssystem zurück, welches in Abschnitt 3.1.2 vorgestellt wurde. Die Avatare werden durch Eingabegeräte gesteuert, welche vordefinierte Animationen auslösen oder ändern können. Das System gilt auch bei Gesten und Posen. So werden sie über ein Eingabegerät wie Tastatur oder Maus ausgelöst und sollen einen Interaktions- oder Kommunikationszustand abbilden. Gesten sind also wie Animationen als Icons für Kommunikationszustände zu verstehen. 44 3.3 Nonverbale Kommunikation Das Gestensystem kann über verschiedene Wege gesteuert werden. In Virtuellen Welten wie Second Life oder World of Warcraft werden Gesten über eigens definierte Tastatureingaben gestartet. So zum Beispiel „/dance“ um zu tanzen oder „/afk“ um anzuzeigen, dass gerade niemand den Avatar steuert, da der Nutzer sich nicht an der Tastatur befindet. In Second Life ist es außerdem möglich, für bestimmte Gesten zugehörige Tasten zu definieren. Wenn diese Taste dann gedrückt wird, so startet das Animationssystem die Geste. Das Auslösen der Gesten über die Tastatur oder eine Maus muss demnach manuell gestartet werden. Erste automatische Ansätze sind in Second Life zu entdecken. Hier reagiert das Gestensystem, sobald ein Spieler 5 Minuten nichts über die Tastatur oder Maus eingegeben hat. Danach wird die Pose für Abwesenheit gestartet. Problematisch ist hier allerdings die Zeitverzögerung des Statusupdates. Der zweite automatische Gestenansatz in Second Life wird durch die Spracheingabe im Mikrofon ausgelöst. Durch Geräusche im Mikrofon wird vom Gestensystem eine Animation gestartet, bei welcher die Person leicht gestikuliert. Eine weiter entwickelte Technologie wird in dem Online-Spiel „Star Wars: The Old Republic“ zur Zeit von Bioware entwickelt6 . Hier wurde eine Technologie entwickelt, um Dialoge zwischen Spielfiguren automatisch zu animieren. Dabei sind mit Spielfigur der Avatar aber auch andere Nicht-Spieler-Charaktere gemeint, welche von Agenten gesteuert werden. Das Animationssystem verbindet dabei eine von siebenundzwanzig Grundemotionen mit dem vorgeschriebenen Dialog und generiert daraus Gestik, Lippenbewegung und Gesichtsausdrücke. Dies gelingt für menschliche sowie auch außerirdische, also nicht-menschliche Charaktere. Die Einschränkung in diesem System ist es, dass im vorhinein die Dialoge und Stimmungen bekannt sein müssen und nicht in Echtzeit verarbeitet werden können. In dieser Hinsicht zieht es die gleichen Einschränkungen wie im System von Cassell et al. nach sich [CPB+ 94]. Cassell hat ein System vorgeschlagen, welches aufgrund von Dialogen in verbaler Form automatisch aus Text und Intonation die Animationen für Lippensynchronisation, Gesichtsausdrücke, Kopfbewegungen, Augenkontakt und Körpergesten erstellt. 3.3 Nonverbale Kommunikation Die Integration nonverbaler Kommunikation in Virtuelle Welten lässt sich in drei Forschungsansätze unterteilen. Der erste Ansatz beschäftigt sich mit der Integration von nonverbaler Kommunikation in Virtuelle Welten. Dabei wird die zwischenmenschliche Kommunikation analysiert. Der zweite Ansatz untersucht die Kommunikation mit Agenten. Dort wird versucht softwaregesteuerte Avatare zu entwickeln, die von Agenten gesteuert werden. Hier geht es um Künstliche Intelligenz und Sprachanalyse, sowie um realistische nonverbale Kommu6 Stand 21.03.2010 45 3 Analyse virtueller Kommunikation nikation zwischen Mensch und Maschine. Die Herausforderung in diesem Gebiet ist es, den durch Agenten gesteuerten Avatar menschlich erscheinen zu lassen. Das dritte große Gebiet beschäftigt sich mit Videokonferenzen und entwickelt diese weiter. Kommunikation über Avatare Die Darstellung und Animation anthropomorpher Avatare ist Bestandteil jeder Virtuellen Welt. Um nonverbale Kommunikation zu übertragen, gibt es verschiedene Ansätze. Salem et al. untersuchten die Schlüsselrollen des Avatars in [SE00]. Sie identifizierten vier Fragestellungen. Die erste ist die Identität des Nutzers, die aus dem Avatar abgeleitet werden kann. Dann die Zugänglichkeit des Nutzers, also in wie weit auf die Eingabe von Nutzern zugegriffen werden kann. Die dritte Fragestellung wurde als Status des Nutzers erkannt, womit hinterfragt wird, ob der Nutzer aufmerksam ist und welche Rolle der Nutzer in der virtuellen Umgebung inne hat. Der letzte Punkt sind die Charakteristiken und Funktionen von Avataren, die in virtuellen Umgebungen ausgeübt werden können. Auf Basis dieser Fragestellungen entwickelten Salem et al. eine Reihe von Körperposen, Gesichtsausdrücken und Handgesten, welche generisch aus dem geschriebenen Textchat erkannt werden. Dazu bestimmt Salem eine genaue Kommunikationsstruktur. Je nachdem in welchem Interaktionsstatus sich ein Avatar mit einer Gruppe von Avataren befindet, werden bestimmte nonverbale Hinweise abgespielt. Innocent und Haines entwickeln diese Idee in [IH07] noch weiter. Die gesamte Kommunikation ihrer virtuellen Umgebung läuft über Icons ab. Ein Bild der Darstellung ist in Grafik 3.12 aufgezeigt. Man kann erkennen, dass es sich um Pictogramme handelt, die bestimmte nonverbale Hinweise darstellen sollen. Je nachdem was gerade ausgedrück und kommuniziert werden soll, muss ein bestimmtes Pictogramm angeklickt werden. Aus dem Pictogramm wird dann eine Animation abgespielt. Die gesamte Interaktion in dieser Umgebung basiert auf Icons. Kommunikation mit Agenten Während bei der Forschung zur Kommunikation zwischen Avataren nach Hinweisen gesucht wird, um nonverbale Zeichen auszulösen, wird in der Forschung zu Agenten versucht, den Status der Kommunikation zu erkennen. Aufbauend auf dem erkannten Status, werden vom Computer nonverbale Zeichen abgespielt. Vilhjalmsson stellt in [VC98] dazu ein algorithmisches System auf, um auf Ereignisse in der Virtuellen Welt zu reagieren. Im Speziellen wird auf Ereignisse eines von Menschen gesteuerten Avatars reagiert. Zu den Ereignissen wird ein Stück vorgefertigte Konversation zugeordnet, auf dessen Basis dann ein Kommunikationsverhalten mit einer Animation und Textschnipseln abgespielt werden. Auch hier wird ein festes System an Reaktionen vorgegeben. Während der Kommunikation ist es dem Agenten zum Beispiel möglich auf Bewegungen mit Spiegelbewegungen zu reagieren und bei Fragestellun- 46 3.3 Nonverbale Kommunikation Abbildung 3.12: Nonverbale Pictogramme gen die Augenbrauen zu heben. Dieser Ansatz wird ständig weiter verfeinert. Rushforth et al. haben zum Beispiel in [RGA+ 09] ein System zur Abgleichung von sprachlichen und visuellen Kommunikationselementen virtueller Agenten entwickelt. Dabei werden Phoneme und Animationen zeitlich synchronisiert, um eine realistische Bewegung und Sprache von Agenten zu ermöglichen. Mit diesem System wurden Ada und Grace aus dem Projekt „InterFaces“ des Cahners ComputerPlace animiert und es lässt sich unter [fCTatUoSC10] abrufen. Videokonferenzen Videokonferenzen sind der zweite Weg um nonverbale Kommunikationen zu virtualisieren. Dabei wird das reale Bild über den Computer übertragen und beinhaltet die visuellen nonverbalen Kommunikationshinweise, wie Mimik, Gestik und Teile der Aufmerksamkeit. Andere Hinweise, wie zum Beispiel die Proxemik oder Augenkontakt, sind damit nicht abbildbar. In diese Richtung wird jedoch geforscht. In dem Paper [JLF+ 09] von Jones et al. wird ein kompliziertes Verfahren vorgestellt, um Videokonferenzen zu dreidimensionalisieren und Augenkontakt herzustellen. Dafür verbinden sie einen Echtzeit 3D Gesichtsscanner mit einem 3D-Anzeige-System, wie es in der Grafik 3.13(a) zu sehen ist. Die Aufnahmen aus dem Scanner werden eins zu eins auf das Anzeige-System abgebildet und erlauben Augenkontakt. Das Anzeige-System besteht aus einem sich schnell drehenden Spiegel. Auf diesen Spiegel wird mit einem Projektor das Video auf den Spiegel projiziert. Durch die sehr schnelle Drehung des Spiegels wird die Projektion als dreidimensional wahrgenommen. 47 3 Analyse virtueller Kommunikation Ein anderer Weg Videokonferenzen zu verbessern ist in [OYK+ 03] vorgestellt. Ogi et al. entwickelten ein Videokonferenzsystem in einer CAVE-Umgebung. Dazu werden Avatare per Kamera aufgenommen und in die CAVE projiziert, wie in den Grafiken 3.13(b) zu sehen ist. (a) 3D Videokonferenz (b) Videokonferenz in CAVE Abbildung 3.13: Erweiterungen für Videokonferenzen 3.4 Interaktionstypen In den Grundlagen wurde im Abschnitt 2.2.1 die Kommunikation von der Interaktion abgegrenzt. Kommunikation kann als spezifische Form der sozialen Interaktion verstanden werden, womit die Kategorisierung von Interaktion in Interaktionstypen die zwischenmenschliche Kommunikation enthält. Groh und Salem haben sich mit der Unterteilung in Interaktionstypen besonders auseinander gesetzt. Kann die Interaktion in Kategorien unterteilt werden, dann ist es einfacher, die Kommunikation zwischen Avataren zu klassifizieren, da je nach Interaktionstyp andere avatarische Verhaltensmuster und demnach Bewegungs-Icons greifen. Interaktion nach Groh Groh und Zavesky untersuchen, wie „Verhaltensmuster und Aktionsrichtungen von Avataren mit Hilfe von Vektoren erfasst werden können“ (vgl. [GZ08], S. 1). Dabei wird aufgezeigt, dass Avatare durch die computergrafische Parallelprojektion verzerrt werden. Dies geschieht aufgrund eines festen Frustum in der Mitte der Kamera, welches nicht dem natürlichen Sehen des Menschen enspricht, da hier der Fokalpunkt und damit das Frustum in ständiger Bewegung ist. Es kommt also zu einem Fehler in der Wahrnehmung der Avatare und damit in der zwischenmenschlichen Kommunikation. Groh und Zavesky schlagen das Verfahren der „Erweiterten Perspektivischen Korrektur“ vor, um diesen Fehler der Computergrafik zu 48 3.4 Interaktionstypen beheben. Nachdem die Avatarvektoren definiert und die perspektivischen Fehler beseitigt sind, wird das Verhalten von Avataren in Interaktionstypen unterteilt, damit Avatare und deren Aktionen vergleichbar werden. In der Abbildung 3.14 sind die definierten Interaktionstypen dargestellt. Abbildung 3.14: Interaktionstypen aus [GZ08] Groh und Zavesky unterteilen die virtuelle Interaktion in die Interaktionstypen Selbstbetrachtung, Bewegung, Beobachtung und Kommunikation. Die Kommunikation wird dabei noch in Ankunft, Begrüßen, Wirken, Austausch und Entfernen unterteilt. Es wird zwischen Interaktion vom Menschen mit dem Avatar und Interaktion zwischen Avataren unterschieden. Dies ist sinnvoll, da der Avatar auch zur Indentitätsstiftung, Orientierung und Navigation beiträgt. Die Identität kann zur computervermittelten Kommunikation beitragen, wie in Abschnitt 4.2.3 vertieft werden wird. Interaktion nach Salem Salem stellt in [SE00] eine nonverbale Sprache für Avatare vor. Er deutet auf die Schlüsselrolle der Avatare für Virtuelle Welten hin und definiert eine Gesten- und Ausdruckssprache auf Basis von Interaktionstypen. Diese Interaktionstypen unterteilt Salem in vier Kategorien: einer Konversation beitreten, an einer Konversation teilnehmen, eine Konversation verlassen und die Interaktion zwischen Avatar und Mensch. Die Interaktion zwischen Avatar und Mensch kann auch als Status des Nutzer, also des Menschen hinter dem Avatar verstanden werden. Im Gegensatz zu Groh untersucht Salem hier nicht das Betrachten des Avatars durch den Menschen, sondern den Zusammenhang zwischen dem Status des Nutzers und dem korrespondierendem Interaktionstyp des Avatars. Zusätzlich wird ein Gruppenstatus postuliert, welcher anzeigen soll, ob einer laufenden Gruppen-Interaktion beigetreten werden kann oder nicht. Diesen Interaktionen ordnet Salem definierte Bewegungsmuster zu. Eine Zuordnung 49 3 Analyse virtueller Kommunikation ist in Abbildung 3.15 dargestellt. Abbildung 3.15: Animation-Interaktion Zuordnung von Salem Salem entwickelt ein ähnliches System wie Groh. Interaktion lässt sich in verschiedene Subtypen unterteilen und darauf aufbauend werden Bewegungsmuster zugeordnet, wie das Winken beim Abschied oder das Wegdrehen bei der Vorbereitung des Abschiedes. Groh fasst die Interaktionstypen dabei eher abstrakt auf und untersucht diese szenisch-bildnerisch, aus dem Blickwinkel eines Malers, während Salem eher pragmatisch vorgeht. Offensichtlich wird aus beiden Sichtweisen die Unterteilung der Interaktion in verschiedene Typen, wobei die eigentliche Kommunikation nur ein Subtyp ist. In dieser Arbeit wird sich ausschließlich mit der Kommunikation an sich beschäftigt und das Zustandekommen und Beenden der Kommunikation vorerst außer acht gelassen. 3.5 Zusammenfassung In diesem Kapitel konnte der Avatar und seine Kommunikationsmöglichkeiten in Virtuellen Welten analysiert werden. Der Avatar besteht aus einem in sich geschlossenem Netz von Polygonen. Das Polygonnetz wird mit Hilfe von komplexen Shadern texturiert und man ist damit in der Lage, Fotorealismus zu erreichen. Belebt wird das Polygonnetz durch ein Skelett, welches in das Polygonnetz eingepasst wird. Dieses Skelett ist hierarchisch aufgebaut. Wird die Hüfte bewegt, bewegt sich der gesamte Körper, wird aber ein Finger bewegt, so bewegt sich nur der Finger. Bei der Animation und der Modellierung von Avataren muss zusätzlich auf das unheimliche Tal Rücksicht genommen werden. Nähert sich eine Bewegung oder ein Roboter dem realistischen Bild eines Menschen an, fallen die kleinen Unterschiede 50 3.5 Zusammenfassung stärker auf, sodaß Bewegung und Aussehen gerade nicht menschlich erscheinen. Diesen unheimlichen Effekt führt MacDorman auf einen Eindruck von Leblosigkeit und Tod zurück. Da die Modellierung von Avataren bereits Fotorealismus erreichen kann, liegt das Hauptproblem in der Animation von Charakteren. Dafür wurde die Technologie des Motion-Captures entwickelt und zum Performance-Capture erweitert. Mit dieser Technologie kann die menschliche Bewegung sowie Mimik und Gestik naturgetreu aufgenommen und auf Avataren und Charakteren abgespielt werden. Es wird offensichtlich, dass damit eine eher realistische Darstellung und Bewegung von Menschen technisch möglich ist. Eine Einschränkung ergibt sich durch die Server-Client Architektur von Virtuellen Welten, welche in Abschnitt 2.1.2 ausführlich behandelt wurde. Die Clienten bekommen vom Server die Animation mitgeteilt, welche gerade auf den Charakteren abgespielt wird, wodurch jede Animation dem Server und den Clienten zur Verfügung stehen muss. Die Animationen werden dadurch zu reinen Bewegungsmustern degradiert und die Kunst ist es, das richtige Bewegungsmuster zur richtigen Zeit abzuspielen. Neben diesen Bewegungsmustern existiert in aktuellen Virtuellen Welten wie Second Life oder World of Warcraft noch textuelle und verbale Kommunikation. Diese haben wiederum teilweise Einfluss auf die Bewegungsmuster der Avatare. Falls also ein bestimmtes Schlüsselwort geschrieben, in das Mikrofon gesprochen oder jemand längere Zeit abwesend ist, werden wiederum ensprechende Gesten und Posen abgespielt. Die Bewegungsmuster werden keinesfalls erschöpfend behandelt. Ein erster Ansatz ist, Kommunikation in verschiedene Interaktionstypen zu unterteilen, worauf entsprechende Bewegungsmuster angepasst werden können. Diesem Ansatz sind Salem und auch Groh et al. gefolgt. Ein dritter Weg soll in der vorliegenden Arbeit untersucht werden. An diese Analyse ansetzend soll im folgenden Kapitel ein Bewertungssystem für Kommunikation in Virtuellen Welten erarbeitet werden. Darauf aufbauend wird ein Konzept zur multimodalen Nutzung der Eingabegeräte und ihrer Auswirkungen auf das Animationssystem mit seinen Bewegungsmustern erstellt. 51 4 Bewertung virtueller Kommunikation Im Kapitel 3 konnte der Stand der Kommunikation in Virtuellen Welten aufgezeigt werden. Daraus folgt die Problematik der Bewertung und Einordung virtueller Kommunikation. Die Frage, die sich stellt, ist, ob eine Virtuelle Welt eine erfolgreiche Kommunikation ermöglicht oder, ob zuviele Einschränkungen und Hindernisse existieren. Zur Beantwortung werden in diesem Kapitel die Einflussfaktoren auf den Erfolg von virtueller Kommunikation erarbeitet. Erste technische Einflussfaktoren konnten bereits in den Abschnitten 2.1.2 und 3.1 gezeigt werden. Vor allem psychologische Einflussfaktoren und deren technische Grundlage sollen final zu einer Bewertung zusammengefasst werden. Aufgebaut wird auf den Grundlagen der Kommunikationswissenschaften aus Kapitel 2.2. 4.1 Kommunikationskanäle In den Grundlagen zu den Kommunikationswissenschaften konnte herausgearbeitet werden, dass die Präzision einer Kommunikation von der Anzahl der aktivierten Modalitäten abhängt. So schreibt Schreiber, dass „ je mehr Kanäle in der Kommunikation jeweils zusammenwirken, desto höher ist der Grad der Präzision und der Reflexivität der Kommunikation“ ([Sch90], S. 132). Nach der Analyse in Kapitel 3 wird auch verständlich, dass ausschließlich der auditive und visuelle Kanal in Virtuellen Welten benutzt wird. Ob textuelle oder sprachliche Kommunikation, über diese beiden Modalitäten geht es in der praktischen Umsetzung Virtueller Welten noch nicht hinaus. Im Grundlagenkapitel wurde bereits aufgezeigt, dass erste Erfolge bei der computervermittelten Aktivierung des olfaktorischen Kanals nachgewiesen werden können. Auch im taktilen Bereich wird viel geforscht, vor allem durch die Entwicklung von ForceFeedback Handschuhen, wie der Phanton Device von Massie in [MS94]. Diese ermöglichen es dem Nutzer, in virtuellen Umgebungen haptisches Feedback zu bekommen. Dazu wird eine mechanisch Kraft auf die Hand und ihre Finger ausgeübt, falls sie in der Virtualität ein synthetisches Objekt berühren. Interessanterweise wird hier die fehlende Stofflichkeit virtueller Objekte scheinbar aufgehoben, was den eigentlichen Unterschied zwischen Realität und Virtualität verschwimmen lässt. Drei Jahre später integrierten Ottensmayer und Salisbury zusätzlich thermale Signale in den Phantom Device [Ott97]. Der thermale Kommunikationskanal ist ein wichtiger Aspekt der haptischen Wahrnehmung. Dies gilt beim Ertasten von 53 4 Bewertung virtueller Kommunikation Objekten genauso wie in der zwischenmenschlichen Kommunikation, beim Händedruck beispielsweise. Haptische Schnittstellen dienen vorerst allein Forschungszwecken. Sie sind teuer und auch der Freiheitsgrad der Bewegung wird deutlich eingeschränkt, wie in [MS94] diskutiert wird. Zusätzlich sollte über die Anwendungsfälle virtueller haptischer Kommunikation diskutiert werden. Ist ein haptisches Feedback beim Ertasten und Erstellen von virtuellen Objekten durchaus sinnvoll, ist dagegen die Nutzung in der zwischenmenschlichen Kommunikation zumindest fragwürdig. Der gustatorische Kanal wird in der Forschung nicht behandelt. Jedenfalls war es zum Zeitpunkt dieser Arbeit nicht möglich, eine wissenschaftliche Forschung mit dem Ziel einer gustatorischen Umsetzung in Virtuellen Welten zu recherchieren. Wie am taktilen Kommunikationskanal erarbeitet worden ist, existieren für jeden Kanal mehrere Aspekte. Im Taktilen gibt es zum Beispiel Druck und Wärme. Der auditive und der visuelle Kanal besitzen dabei unweit mehr Aspekte, welche im Folgenden näher untersucht werden sollen. 4.1.1 Auditiver Kanal Der auditive Kanal wird durch Sprache und paraverbale Kommunikation definiert [Bec07]. Mit Sprache steht dem Menschen im Gegensatz zum Tier eine hoch abstrakte und leistunsgfähige Verständigungsmöglichkeit zur Verfügung, mit der über Abwesendes und Nicht-Existentes, Gefühle, Vorstellungen und Ideen genauso kommunizieren werden kann, wie über konkrete Objekte der realen Welt. Sprache versetzt den Mensch in die Lage, Begriffe zu bilden und neue sowie individuelle Erfahrungen in das System der Begriffe einzuordnen. Paraverbale Zeichen sind unmittelbar mit dem Sprechen verbunden. Sie sind Ausdruck der Art und Weise des Sprechens, sowie Indizien für die Stimmung und Eigenschaften des Redners. Stimmhöhe, -lautstärke, -dynamik, Sprechtempo, Pausen und Verzögerungen können als Hinweise auf die Aufrichtigkeit oder Glaubwürdigkeit, das Engagement eines Redners, aber auch als Signale für die Dringlichkeit oder Relevanz einer Aussage interpretiert werden. Es gibt jedoch keine eindeutige Denotation, da Menschen ihre Emotionen und Stimmungen unterschiedlich verarbeiten und demnach auch unterschiedlich ausdrücken. Je besser sich die Kommunikationspartner kennen und je mehr kommunikative Kompetenz sie beherrschen, desto erfolgreicher sind auch die paraverbalen Zeichen interpretierbar. 54 4.2 Erlebnistiefe 4.1.2 Visueller Kanal In den visuellen Kanal fällt die nonverbale Kommunikation in einer Angesicht-zu-Angesicht Situation. Unter nonverbalen Signalen sind alle Zeichen zu verstehen, die nicht unmittelbar mit dem Sprechen selbst verbunden sind, dieses aber begleiten können. Dazu gehören der Gesichtsasdruck durch die Mimik, die Bewegungen von Händen und Armen, was auch die Gestik genannt wird und die Körperhaltung sowie Stellung im Raum und zum Kommunikationspartner, was unter dem Begriff Proxemik zusammengefasst wird. Dazu kommt noch das Blickverhalten, das eine große Rolle bei der kontaktaufnahme und beim Sprecherwechsel spielt. Nonverbale Signale sind zum Beispiel lächeln, lachen, weinen, aber auch eine entspannte Sitzhaltung, ein Hinüberlehnen zum Kommunikationspartner und Selbstberührungen, wie das Kratzen am Kopf oder das Augenreiben. Diese Signale können vom Kommunikationspartner als Anzeichen für tatsächliche oder angebliche Befindlichkeit und Stimmung des Redners, insbesondere für seine Glaubwürdigkeit, gedeutet werden [Bec07]. Deutlich wird hier, dass wie bei den paraverbalen Zeichen, keine eindeutige Denotation besteht. Dies beruht auf der Individualität jedes einzelnen Menschen, wie auch auf kulturellen Unterschieden zwischen Gruppen von Menschen. 4.2 Erlebnistiefe Im Abschnitt 2.1 der Grundlagen dieser Diplomarbeit wurde darauf verwiesen, dass Jennett et al. in [?] den Begriff der Immersion analysiert und definiert haben. Immersion wird als Erfahrung deklariert, welche mit den Eigenschaften Verlust von Zeitgefühl und Gewahrsein der realen Welt sowie Aufmerksamkeitsfokus und Bindung in der Virtuellen Welt verbunden ist. Immersion ist daher in Virtuellen Welten durchaus erwünschenswert, aber keine Notwendigkeit für eine erfolgreiche virtuelle Kommunikation. Auf Grund dessen wird die Abgrenzung der Immersion von Jennett et al. gegenüber der Präsenz aufgegriffen und mit weiteren Begriffen angereichert. Das Sammelsurium an psychologischen Effekten wird unter dem Begriff Erlebnistiefe zusammengefasst und nach Relevanz für eine erfolgreiche Kommunikation untersucht. Erlebnistiefe bezeichnet den Effekt des Eintauchens in die Virtuelle Welt. Je mehr der Mensch sich auch kognitiv in der Virtuellen Welt befindet, desto stärker nähert sich die virtuelle Kommunikation der Angesicht-zu-Angesicht-Kommunikation an. Es wird eine Kommunikation über primäre Medien simuliert. 55 4 Bewertung virtueller Kommunikation 4.2.1 Präsenz Präsenz ist ein Begriff der seit den neunziger Jahren in der Forschung zur virtuellen Realität benutzt wird. Slater und Kollegen sind dabei die ersten, die sich ernsthaft um eine Definition bemühen. In [SUS94] wird Präsenz als Gefühl sich in einer Virtuellen Welt zu befinden definiert. Als wichtigste Konzepte für Präsenz werden Kontrolle, Sensorik, Ablenkung und Realismus benannt. In einer Analyse der Philosophen Heidegger und Gibson durch Zahorik und Jenison (vgl. [ZJ98]) wird Präsenz anders interpretiert. Präsenz entsteht dann, wenn die Umgebung eines Menschen als realistisch wahrgenommen wird. Sie muss den Erwartungen an Gesetzen und Regeln der realen Welt entsprechen. Aktionen des Menschen führen zu Reaktionen in der Umgebung. Der Mensch hat durch die Evolution in der realen Welt deren Gesetzmäßigkeiten und Regeln erlernt. Darauf aufbauend entwickelt er Erwartungen an diese Welt. Diese Erwartungen werden aufbauend auf den Gesetzmäßigkeiten in der realen Welt gebildet. Präsenz ist also dadurch bestimmbar, dass der Unterschied an Realismus, bezogen auf Wahrnehmung, Erwartung und Aktion, zwischen der Virtuellen Welt und der realen Welt untersucht wird. Der Begriff Präsenz ergibt daher nur Sinn, wenn zwischen zwei Umgebungen verglichen wird. Hinzu kommt auch, dass oftmals Eindrücke aus beiden Umgebungen wahrgenommen werden, welche dann miteinander in Konkurrenz stehen. Festzuhalten ist, dass Präsenz die Immersion fördern kann, aber nicht unabdingbar für eine immersive Erfahrung ist. So ist es möglich, in einer Umgebung ohne Präsenz, wie Tetris oder anderer abstrakter Puzzle, immersiert zu sein. Präsenz ist genauso ohne Immersion möglich. So kann man sich in einer Virtuellen Welt aufhalten, aber nicht immersiert sein, weil Langeweile auftritt oder man warten muss und dadurch der definierende Effekt von Zeitverlust nicht eintritt. Mit Hilfe der Präsenz unterscheidet Milgram Systeme der vermischten Realität. Dazu wird der Grad des Fotorealismus der computergrafischen Simulation und die Art der Anzeigen benutzt(siehe Abbildungen 4.2 und 4.1). keine Präsenz Konventionelles Video DrahtgitterModell Farbvideo Ober�lächenModell Stereoskopisches Video Shader, Textur, Transparenz High De�inition Video Raytracing, Radiosity 3D HD Video Real-Time High Fidelity 3D-Animation hohe Präsenz Abbildung 4.1: Bildqualität und Präsenz nach Milgram ([MK94], S. 9) Diese beiden Kriterien sind allerdings nicht dazu in der Lage, die Präsenz in einer Virtuellen Welt in seiner Gesamtheit zu erfassen. Hier wird nur auf einen Teilbereich der visuellen Wahr- 56 4.2 Erlebnistiefe keine Präsenz Monitorbasiert (Fenster auf die Welt) Monoskopische Bildgenerierung Große Bildschirme Multiskopische Bildgenerierung Panorama Head Mounted Displays StellvertreterReisen Echtzeit Bildgenerierung hohe Präsenz Abbildung 4.2: Anzeigen und Präsenz nach Milgram ([MK94], S. 11) nehmung eingegangen, denn Wahrnehmungs-, Erwartungs- und Aktionsrealismus lassen sich nicht allein durch computergrafischen Fotorealismus und auf den Kopf montierte Anzeigen erlangen. 4.2.2 Soziale Präsenz Computervermittelte soziale Präsenz ist die Wahrnehmung eines anderen Wesens im virtuellen Raum. In der Psychologie ist soziale Präsenz ein großes Forschungsfeld, in welchem sich mit der Unterteilung sozialer Präsenz in verschiedene Grade, dem Messen sozialer Präsenz und den Faktoren befasst wird, die zu sozialer Präsenz führen. Die Wahrnehmung Soziale Präsenz ist in verschiedene Grade unterteilbar. Der unterste Grad sozialer Präsenz ist durch das Bewusstsein charakterisiert, einen Raum mit einem anderen Wesen zu teilen. Es handelt sich um eine rein räumliche Wahrnehmung des Anderen. Der höchste Grad sozialer Präsenz definiert sich durch beiderseitige Zugänglichkeit über gegenseitige Aufmerksamkeit, gegenseitiges Verständnis, den geteilten emotionalen Zustand und voneinander abhängiges Verhalten [BH02]. Biocca und Kollegen weisen auf den Focus sozialer Präsenz in Hinsicht auf die Interaktion zwischen Verstand und Technologie hin. Im Speziellen gehen sie darauf ein, welche verschiedenen Technologien und Darstellungen den Prozess der mentalen Repräsentation von sozialer Interaktion beeinflussen und in welchem Grade dies geschieht. Aufgrund dieser Studien konnten Biocca und Kollegen das Modell der Networked Minds aufstellen, welches sich in der Forschung zur sozialen Präsenz zum Standardmodell entwickelt hat. Das Modell der Networked Minds besteht aus drei Stufen und dazugehörigen Messinstrumenten. Die erste Stufe wird Wahrnehmungstufe genannt und beinhaltet die räumliche Präsenz der Darstellung des Anderen. Hier geht es um die bewusste Erfassung einer anderen computervermittelten Person. Gemessen werden kann diese Kopräsenz über Selbstbeobachtung, Augenfixationen durch Blickverfolgung, Proxemisches Verhalten, wie Annäherung und Entfernen, sowie durch physiologische Messungen der Aufregung. Die zweite Stufe des Modells, die subjektive Stufe, ist der Zugriff auf das Verhalten des Anderen. Zur reinen Wahrnehmung kommt hinzu, dass die Technologie den Anderen zugänglich 57 4 Bewertung virtueller Kommunikation macht. Dazu gehört die Beobachtbarkeit der Aufmerksamkeit und des emotionalen Zustands sowie gegenseitiges Verständnis und Verhaltensinteraktionen. Messbar wird diese Stufe durch verfolgen der Aufmerksamkeit. Weiterhin ist die Wechselseitigkeit der Kommunikation durch das sogenannte „turn-taking“, das abwechselnde Sprechen, charakterisiert und auch messbar. Die dritte Stufe nennt Biocca intersubjektive Stufe. Die Erweiterung ist hier die gegenseitige soziale Präsenz. Die Kommunikation zwischen dem Nutzer und anderen computervermittelten Personen wird wechselseitig. Auf dieser Stufe wird sich damit beschäftigt, wie stark soziale Präsenz beidseitig wahrgenommen und inwieweit die beidseitige Wahrnehmung der sozialen Präsenz auch kommuniziert werden kann. Diese Stufe wird dadurch erkannt, dass im Nachhinein die Teilnehmer über die gleiche Erfahrung bezüglich der sozialen Präsenz berichten. Den Einfluss von Technologien auf die soziale Präsenz kann nun über die Networked Minds Theorie gemessen werden. Den Teilnehmern werden unterschiedliche Bildschirme, Avatare und Animationen vorgeführt und mit den verschiedenen Messinstrumenten lässt sich die Stufe der sozialen Präsenz bestimmen. Die Networked Minds Theorie ist in Grafik 4.3 mit Beispielen aus einem Fragebogen abgebildet. (a) Networked Minds Modell (b) Networked Minds Einflussfaktoren Abbildung 4.3: Theorie der Networked Minds nach [BH02] Eine Mehrzahl an Studien benutzt die Networked Minds Theorie, um das Phänomen der sozialen Präsenz zu erkunden. Hauber untersucht in [HRH+ 05] den Grad der sozialen Präsenz in zwei- und dreidimensionalen Videokonferenzen. Er vergleicht diese mit dem Gold-Standard der sozialen Präsenz, der Angesicht-zu-Angesicht-Kommunikation. Er konnte zwei wichtige Hypothesen nachweisen. Die erste, dass Angesicht-zu-Angesicht wirklich der Standard ist, an dem sich gemessen werden muss. Die zweite Hypothese stellt heraus, dass dreidimensionale Videokonferenzen die soziale Präsenz gegenüber zweidimensionalen Videokonferenzen erhöhen. In der Grafik 4.4 sind die Ergebnisse der Studie aufgezeigt. Der Unterschied zwischen den Videokonferenzsystem lag allein in einer räumlichen Anordnung, um die Proxemik abzubilden. Im zweidimensionalen Fall wurden die Videostreams übereinander angeordnet, 58 4.2 Erlebnistiefe während sie im dreidimensionalen Fall im Raum verteilt wurden. Abbildung 4.4: Vergleich sozialer Präsenz Weitere Studien untersuchen Faktoren und Technologien und deren Einfluss auf die soziale Präsenz. Dabei fallen vor allem Untersuchungen zu nonverbaler Kommunikation auf. So konnte Bente in einer Studie zu sozialer Präsenz und Vertrauen aufzeigen, dass Avatare die räumliche Präsenz deutlich besser unterstützen, als Audio- und Videokommunikation. Darauf aufbauend hat Bente in [BEA07] den Einfluss von Augenkontakt in virtuellen Umgebungen erforscht, um festzustellen, dass mit der soziale Präsenz auf der zweiten Stufe, der Zugang auf das Verhalten des Anderen möglich wird. Parallel hat Bailenson in [BYMS06] untersucht, dass Gesichtsausdrücke von Avataren und die damit verbundene Übertragung von Emotionshinweisen, die soziale Präsenz weiter erhöhen. Die Faktoren des Augenkontaktes, der nonverbalen Kommunikation und der Repräsentation durch Avatare haben offensichtlich großen Einfluss auf die soziale Präsenz in Virtuellen Welten. 4.2.3 Selbstwahrnehmung Selbstwahrnehmung ist ein Zustand der nach innen gerichteten Konzentration, um das Selbst zu untersuchen [FSB75]. Selbstwahrnehmung ermöglicht es Personen, ihre persönlichen Normen, Überzeugungen, Ansichten abzurufen [DS02] und emotionale Zustände ihrer Selbst und 59 4 Bewertung virtueller Kommunikation Anderer zu erkennen [Sch76]. Im Rahmen der computergestützten Kommunikation hat sich gezeigt, dass hohe Selbstwahrnehmung auch die Auskunft über sich selbst erhöht [Joi01], was wiederum zu höherer Präzision in der zwischenmenschlichen Kommunikation führt [YF06]. Angesichts der einflussreichen Rolle der Selbstwahrnehmung in der computergestützten Kommunikation ist es wichtig zu untersuchen, welche Faktoren Einfluss auf die Selbstwahrnehmung haben. Nach Scheier ist der am weitesten verbreitete Ansatz die Selbstwahrnehmung zu verbessern, den Fokus auf das Aussehen zu lenken, wie beispielsweise über einen Spiegel. Vasalou et al. schlagen daher vor das Äußere eines Avatars an das Äußere des Nutzers anzupassen.Über die Eigenrepräsentation soll nach Vasalou die Selbstwahrnehmung verbessert werden [VJP07]. Um diese These zu unterstützen, haben Vasalou et al. eine Studie unternommen, in der Nutzer mit Avataren kommunizieren sollten. Eine Gruppe benutzte dabei Avatare welche ihnen ähnlich sahen, während die Kontrollgruppe mit Avataren kommunizierte, die sie nicht repräsentierten. Dabei konnte festgestellt werden, dass die Teilnehmer mit Eigenrepräsentation eine erhöhte Selbstwahrnehmung gegenüber den Teilnehmern ohne Eigenrepräsentation erlangten. Die Studie von Vasalou lässt darauf schliessen, dass Eigenrepräsentation die Selbstwahrnehmung in Virtuellen Welten steigert und damit dem Erfolg virtueller Kommunikation zuträgt. In Virtuellen Welten wie Second Life lässt sich dagegen beobachten, wie wiederum kaum ein Avatar dem eigenen Aussehen ähnelt. Obwohl hier eine große Freiheit bei der Gestaltung der Avatare zugelassen wird, werden sie anderweitig gestaltet. 4.2.4 Identifikation In dem Abschnitt 4.2.3 zur Selbstwahrnehmung hat sich gezeigt, dass Eigenrepräsentation in Virtuellen Welten die Präzision von Kommunikation erhöhen kann, jedoch Teilnehmer ihre Charaktere oftmals nicht dem eigenen Aussehen nach gestalten. Jensen untersucht in [Jen09] wie Menschen ihren Avatar in Virtuellen Welten interpretieren, wenn sie kommunizieren oder interagieren. Aus der Motivation sich in Virtuelle Welten zu begeben, lässt sich die Gestaltung der Avatare nachvollziehen. Jensen bezieht sechs Punkt der Motivation aus den Studien von Yee [Yee06]. Die Faktoren sind Beziehungen, Manipulation, Absorption, Immersion, Eskapismus und Errungenschaften. Nach Yee haben Teilnehmer mit hoher Punktzahl in dem Bereich Beziehungen das Bedürfnis, Kontakt mit anderen Spielern herzustellen, sich Auszutauschen und zu Unterstützen. Teilnehmer mit einer hohen Punktzahl beim Manipulationsfaktor neigen dazu, andere Spieler zum Objekt ihrer Manipulation zu machen. Sie genießen es zu bluffen, andere zu ärgern und zu beherrschen. Wenn Teilnehmer der Immersion und Absorption zugeordnet werden konnten, war es für diese wichtig, sich in eine Fantasiewelt zu begeben 60 4.3 Bewertungskriterien die möglichst fern von der realen Welt liegt. Diese Teilnehmer genießen eine gute Hintergrundgeschichte und erstellen Avatare mit eigener Geschichte, die in diese Welt passen. Eine hohe Punktzahl in Eskapismus indiziert, das Teilnehmer Virtuelle Welten benutzen, um dem Stress und Problemen ihres realen Lebens zu entkommen. Teilnehmer des letzten Faktors, der Errungenschaften, wollen möglichst mächtig werden und ihren Status in Virtuellen Welten aufzeigen. In den meisten Fällen kommen mehrere Faktoren mit verschiedenen Gewichtungen zusammen vor. Jensen fügt hier noch die Kreativität und Erkundungsmotivation hinzu. Danach werden Avatare mit bestimmten Eigenschaften erstellt, weil es in der realen Welt nicht möglich ist, oder weil sich die Teilnehmer nach bestimmter Art und Weise ausdrücken wollen. Alle diese Motivationsfaktoren führen dazu, dass Avatare nach Situation und Motivation, in die Virtuelle Welt einzutauchen, gestaltet und ausgeprägt werden. Je nachdem ist es den Nutzern oder Aktoren hinter den Avataren möglich, sich mit dem Avatar identifizieren. Jensen konnte zeigen, dass der Grad der Identifikation mit dem Grad dem persönlichen Ausarbeitung von Geschichte und Gestalt der Avatare korreliert. Ein guter Richtwert ist die investierte Zeit. Dabei zählen sowohl die gemeinsam bestandenen Abenteuer, als auch die investierte Zeit beim Shoppen und Gestalten des Avatars. 4.3 Bewertungskriterien Aufbauend auf der ausführlichen Analyse der Kommunikationskanäle und der Faktoren, welche Erlebnistiefe in Virtuellen Welten beeinflussen, ist es möglich einen Katalog verschiedener Bewertungskriterien in Bezug auf den Kommunikationserfolg zu erstellen. Aus den Grundlagen und der Analyse der vorliegenden Arbeit lässt sich schliessen, dass zwei Ebenen der Bewertung virtueller Kommunikation existeren. Auf der einen Seite steht der technische Rahmen, der einer computervermittelten Kommunikation zur Verfügung steht. Je nach technischem Rahmen, fällt die darin vorgehende Kommunikation mehr oder weniger erfolgreich aus. Auf der anderen Seite stehen die psychologischen Effekte die zur Erlebnistiefe führen. Die Technologie hat direkten Einfluss auf den Wirkungsgrad psychologischer Effekte in einer Virtuellen Welt. Kann ihnen die zugrundeliegende Technologien zugeordnet werden, lässt sich daraus eine Aussage über den Erfolg von Kommunikation entwickeln. Es gibt zwei Bewertungsmodi in diesen Kriterien. Einige Kriterien haben eine einfache vorhanden - nicht vorhanden Bewertung. Die zweite Gruppe an Bewertungskriterien wird in 5 Schritte unterteilt: keine, gering, mittel, hoch, sehr hoch. Dabei geht das Bewertungskontinuum von „nicht berücksichtigt“ bis „entspricht der Angesicht-zu-Angesicht-Kommunikation“. 61 4 Bewertung virtueller Kommunikation 4.3.1 Technologien Zuerst wird der technologische Rahmen Virtueller Welten unterteilt. Dabei wird auf dem Kommunikationsmodell aus Kapitel 2.2 aufgebaut und in drei Kategorien unterteilt. Es gibt Eingabetechnologien, also die Schnittstellen, welche es dem Sender erlauben Informationen zu senden und Ausgabemedien, das sind jene Schnittstellen, über welche der Empfänger diese Informationen wahrnehmen kann. Einer dritten Kategorie gehören die Elemente an, welche es dem Nutzer erlauben, ihren Repräsentanten nach eigenen Vorstellungen anzupassen, ob als Eigenrepräsentation oder durch andere Visualisierungen. Eingabetechnologien Unter die Kategorie Eingabetechnologie, fallen die Eingabegeräte. Virtuelle Welten werden im klassischen Sinne durch Maus und Tastatur gesteuert. Vorstellbar sind jedoch auch andere Ansätze zur Steuerung virtueller Umgebungen. So könnte auch eine Space Maus, eine Maus für die Navigation im 3D Raum, benutzt werden oder eben die aktuelle Position eines Nutzers über einen Kompass und ein GPS-Gerät. Weitere Möglichkeiten sind das Navigieren und Orientieren über Blickrichtungsverfolgung, Multitouchgesten oder Joysticks. Es existieren viele Eingabegeräte für den Computer und nahezu jedes kann dazu benutzt werden, Virtuelle Welten zu erkunden. In dieser Bewertung wird die Eingabe in seiner Gesamtheit untersucht. Um den Nutzen bezüglich der virtuellen Kommunikation zu ermitteln, wird sich auf drei Eigenschaften der Eingabe bezogen: • Modalitäten der Eingabe bezieht sich auf die Modalitäten, die von der Eingabe aufgenommen werden. Hierunter fallen die Kommunikationsmodalitäten visuell, auditiv, olfaktorisch, gustatorisch, taktil und thermal. Eine Kamera mit Mikrofon unterstützt zum Beispiel den visuellen und auditiven Kommunikationskanal. • Granularität der Modalität beschreibt die Auflösung der aufgenommenen Informationen für eine bestimmte Modalität. Die Granularität ist damit ein Maß für die Komplettheit der Informationsabbildung durch ein Eingabegerät, basierend auf der Analyse in Kapitel 4.1. Eine Spracheingabe kann zum Beispiel die Stimme eines Nutzers aufnehmen und als Text in die Virtuelle Welt übertragen, was im auditiven Kommuninationskanal einer geringen Granularität entpsricht, da jegliche paraverbale Informationen herausgefiltert werden. • Freiheitsgrad der Eingabe steht für die Einschränkungen, welche das Eingabegerät dem Nutzer auferlegt. Gemessen wird die Einschränkung in Abhängigkeit von der Einschränkung einer Angesicht-zu-Angesicht-Kommunikation. So hat zum Beispiel Augenkontakt in der Angesicht-zu-Angesicht-Kommunikation keine Einschränkungen, während ein Eye Tracker, der auf dem Kopf montiert ist eine hohe Einschränkung, durch 62 4.3 Bewertungskriterien das Gewicht der Montur und der Kamera direkt im Gesicht hat. Ein Eye Tracker der auf einer Infrarotkamera basiert, welche direkt unter dem Monitor installiert ist hat dagegen einen hohen Freiheitsgrad, da kaum Behinderung vorhanden sind. Ausgabemedien In der Bewertungskategorie der Ausgabemedien wird der Schwerpunkt auf die Visualisierung gelegt. Wie in der vorliegenden Arbeit gezeigt, gibt es neben der Visualisierung Untersuchungen zu auditivem und haptischem sowie thermalem Feedback. Da sich die Diplomarbeit mit der nonverbalen Kommunikation in Virtuellen Welten beschäftigt, sind die paraverbalen Informationen zwar für die Eingabe von Bedeutung, für die Ausgabe wird dagegen nur der Vollständigkeit halber die Audiounterstützung als Kriterium mit untersucht und alle weiteren Kommunikationskanäle vernachlässigt. Es ergeben sich fünf Eigenschaften von Relevanz: • Immersion der Ausgabe schließt den Kreis zur Analyse von Milgram et al. aus [MK94]. Milgram weißt dort nach, dass die Präsenz einer Virtuellen Welt direkt von der Auflösung und Größe des Visualisierungsmediums abhängt. Die subjektive Größe ist in diesem Falle entscheidend. Das Kontinuum des Ausgabemediums reicht nach Milgram von einem Monitor, wobei heutzutage ein Telefondisplay passender ist, bis zu Head Mounted Displays, welche die Augen umhüllen und wahrnehmungsgetreue Dreidimensionalität ermöglichen. Sound wurde von Milgram noch vernachlässigt, dient aber genauso dem Gefühl der Präsenz in Virtuellen Welt. Hier gehen die Möglichkeiten von Monosound bis zu professionellen dreidimensionalen Beschallungsanlagen. • Animationsdetail trifft eine Aussage über die Realitätsnähe der für die virtuelle Kommunikation erstellten Animationen. Ein hoher Grad an Animationsdetail ermöglich es, das unheimliche Tal für Bewegungen zu überschreiten. • Animationsvielfalt bewertet die Anzahl an Animationen, welche in virtuellen Kommunikation ausgelöst werden können. je mehr Animationen wie Blickrichtung, Aufmerksamkeit, Gestiken, Sitzen etc. einer Kommunikation zur Verfügung stehen, umso höher wird auch der Erfolg der Kommunikation sein. • Renderdetail bzw. Modellierdetail steht für das Problem der Abstraktion gegenüber der Identifikation. Je abstrakter ein Charakter, desto weniger indentifiziert sich ein Teilnehmer damit. Dies gilt für die Eigenrepräsentation genauso wie für jede andere Visualisierung über den Avatar (siehe Abschnitt 4.2.4). • Audiounterstützung als Kriterium ist eine Aussage darüber, ob die virtuelle Kommunikation VoiceChat unterstützt. Wird VoiceChat unterstützt so sind damit auch die paraverbalen Informationen überliefert. 63 4 Bewertung virtueller Kommunikation Identifikation Die dritte Kategorie untersucht die Anpassbarkeit der Charaktere und Avatare. Im Abschnitt 4.2.4 hat sich ergeben, dass nach Jensen mit dem Grad der Anppassbarkeit eines Avatars sich auch die Identifikation mit diesem erhöht. Je mehr sich ein Nutzer mit seinem Avataren identifiziert, umso mehr involviert fühlt er sich in die Virtuelle Welt. Einfach ausgedrückt erhöht die Anpassbarkeit von Avataren die Erlebnistiefe der Nutzer. Identifikation mit dem Avatar ist zwar bereits ein psycholgisch wichtiger Faktor für die virtuelle Kommunikation, vor allem im Bezug auf Erlebnistiefe, gehört aber trotzdem zum technischen Rahmen Virtueller Welten. Es gibt drei Faktoren, die virtuelle Kommunikation unterstützen können: • Aussehen anpassen steht für die Möglichkeit, das Polygonnetz eines Avatares und dessen Textur in einer Virtuellen Welt anzupassen. Dieser Faktor hängt von dem Modellierungsdetail und Renderdetail einer Virtuellen Welt ab, aber auch von Editoren für das Aussehen. Virtuelle Plattformen wie Second Life und Blue Mars besitzen solche Werkzeuge. • Kleidung anpassen ist aus dem Blickpunkt der Computergrafik aufwändiger. Unterstützt eine Virtuelle Welt diesen Faktor, ist es möglich, erstellte Kleidung an andere Avatare zu verkaufen und damit die Identifikation zu erhöhen [Jen09]. • Animationen und Gesten anpassen ermöglicht ein genaueres Bild seines Avatars zu generieren, vor allem was die nonverbale Kommunikation betrifft. Haltung, Laufstil, Gestiken und Mimiken sind dabei nur einige Beispiele. 4.3.2 Erlebnistiefe Im Abschnitt zum technischen Rahmen wurde bereits die Identifikation mit dem Avatar abgehandelt. Zur Erlebnistiefe gehören aber noch die Effekte der Präsenz und sozialen Präsenz in Virtuellen Welten sowie die kognitive Absorption. Diesen lassen sich bestimmte technische Grundlagen zuordnen, welche benötigt werden um die jeweiligen Effekte zu erreichen. Der Zusammenhang zwischen Technik und Effekten der Erlebnistiefe wurde im Abschnitt 4.2 ausgearbeitet. Präsenz Präsenz ist das Gefühl „vor Ort zu sein“, in eine virtuellen Raum einzutauchen und das Gegenwärtigkeitsgefühl der realen Welt hinter sich zu lassen. Heidegger brachte Präsenz mit dem Wahrnehmungs-, Erwartungs- und Aktionsrealismus zusammen. Damit fällt auch kognitive 64 4.3 Bewertungskriterien Absorption mit in den Begriff der Präsenz. Um Präsenz zu haben, müssen diese Bewertungskriterien erfüllt werden: • Die Granularität der Eingabe lässt sich nur abstrakt beschreiben, da es vom Eingabegerät direkt abhängt, inwieweit es Präsenz unterstützen kann. Wichtig für die Präsenz ist lediglich ein sofortiges Feedback auf die Eingabe. Wie in der realen Welt muss jede Aktion eine Reaktion auslösen. • Der Freiheitsgrad der Eingabe oder der Eingabegeräte ist wichtig, um sich in einer Welt präsent zu fühlen. Er hängt aber vom Eingabgerät selbst ab. Je mehr ein Eingabegerät behindert, umso stärker wird es der Präsenz abträglich sein, da sich der Nutzer ständig kognitiv damit beschäftigen muss. Mit der Zeit ist es allerdings möglich die Steuerung über Eingabegeräte so zu automatisieren, dass sie kognitiv in den Hintergrund treten. Diese Automatisierung wird auch durch das Konzept der kognitiven Absorption beschrieben. • Für Renderdetail gilt, je näher an der Realität, desto präsenter der Teilnehmer in der Virtuellen Welt. Schon Milgram konnte dies 1994 nachweisen. In diesem Sinne ist Fotorealismus das angestrebte Ziel. • Bei Animationsdetail gilt das selbe wie beim Renderdetail. Je näher die Animationen realen Bewegungen sind, desto mehr Präsenz für Teilnehnmer. Es sei hier nochmal auf das unheimliche Tal und Motion Capture im Abschnitt 3.1.3 verwiesen. • Die Immersion der Ausgabe muss für Sound und Video untersucht werden. Für möglichst hohe Präsenz ist dreidimensionale Soundunterstützung der Virtuellen Welt erstrebenswert, genauso wie 3D-Video. Soziale Präsenz Soziale Präsenz steht für die Empfindung „mit anderen zusammen zu sein“. Sie ist das Moment-zu-Moment Gewahrsein der Kopräsenz eines computervermittelten Anderen und der Zugänglichkeit dessen psychologischen, emotionalen und intentionalen Zustandes. Soziale Präsenz ist wie Präsenz als Kontinuum anzusehen und geht von der einfachen körperlichen Anwesenheit bis zur Verhaltensinteraktion1 , wie in Abschnitt 4.2.2 aufgezeigt. Verhaltensrealismus, Augenkontakt und nonverbale Kommunikationshinweise sind dabei die wichtigsten Konzepte für die Verhaltensinteraktion. Aufbauend auf der Analyse der sozialen Präsenz werden diese Bewertungskriterien gewählt: 1 im englischen from copresence to behavioural engagement 65 4 Bewertung virtueller Kommunikation • Modalitäten der Eingabe steht für die Modalitäten der Blickverfolgung und der Aufnahme andere nonverbaler Hinweise durch eine Kamera. Um soziale Präsenz erreichen zu können, muss eine Kamera die zugehörigen Faktoren aufnehmen können. • Die Granularität der Eingabe stellt sicher, dass die Kamera die nötige Auflösung besitzt um die Blickverfolgung zu ermöglichen. Hier müssen die Augen inklusiver Pupillen aufgenommen werden können, um eine genaue Blickverfolgung erreichen zu wollen. • Animationsdetail muss Verhaltensrealistische Animationen gewährleisten. Als Kriterium gilt hier das unheimliche Tal, welches überwunden werden muss um die Wahrnehmung von Bewegungen realistisch zu gestalten. • Animationsvielfalt wird benötigt um die Vielzahl an nonverbalen Hinweisen der Kommunikation übertragen zu können. • Identifikation bezieht sich auf die Anpassbarkeit der Avatare. Je individueller die Avatare gestaltet werden können, je mehr wird sich mit den Avataren identifiziert, was wiederum die Erlebnistiefe und Kommunikation in Virtuellen Welten unterstützt. • Durch Audiounterstützung, also VoiceChat muss es möglich sein über Sprache zu kommunizieren. 4.4 Zusammenfassung Aufbauend auf der Analyse virtueller Kommunikation wurde ein Ansatz zur Bewertung virtueller Kommunikation erstellt. Zuerst wurde erarbeitet, welche Hinweise der Mensch aus der Angesicht-zu-Angesicht-Kommunikation aufnimmt, beziehungsweise welche Informationen aus welchem Kommunikationskanal entnommen werden können. Dabei hat sich ergeben, dass vor allem verbale, paraverbale und visuelle nonverbale Hinweise die Kommunikation bestimmen. Olfaktorische und taktile Informationen werden in dieser Arbeit vernachlässigt. Anschließend wurde auf die Definition von Erlebnistiefe und ihrer verschiedenen Facetten eingegangen. Präsenz, soziale Präsenz, Selbstwahrnehmung und Identifikation sind psychologische Effekte, die in Virtuellen Welten erwünscht sind. Gerade Spieleentwickler legen ihren Fokus auf Fließen und Immersion. Speziell für virtuelle Kommunikation sind vor allem die Effekte Präsenz und soziale Präsenz von Bedeutung, wobei die Identifikation und Selbstwahrnehmung der sozialen Präsenz untergeordnet wird. Zusammen mit der technischen Analyse aus dem Kapitel 3 wurde ein Bewertungssystem für virtuelle Kommunikation aufgestellt. Es wurde der technische Rahmen Virtueller Welten über 66 4.4 Zusammenfassung verschieden Kriterien der Eingabe, Ausgabe und Identifikation abgesteckt, um auf deren Basis Rückschlüsse auf Präsenz und soziale Präsenz ziehen zu können. Mit diesem Bewertungskatalog ist es möglich mehrere virtuelle Kommunikationen miteinander zu vergleichen und aus ihm einen relativen Rückschluss auf den Kommunikationserfolg zu ziehen. Die Bewertungskriterien dienen jedoch nicht allein dem Vergleich. Aus den Kriterien ergibt sich auch, wie ein Konzept für eine erfolgreiche virtuelle Kommunikation aussehen muss. Dieses Konzept wird im folgenden Kapitel erstellt und daraufhin mit der Analyse des aktuellen Standes virtueller Kommunikation verglichen. 67 5 Konzept zur Übertragung von Kommunikation in die Virtualität In Kapitel 4, der Bewertung virtueller Kommunikation, wurde ein Bewertungssystem für virtuelle Kommunikation aufgestellt. Die Hauptpunkte Präsenz und soziale Präsenz wurden darin, basierend auf dem technischen Rahmen Virtueller Welten, beschrieben. Dieses Bewertungsystem und die damit verbundenen Analyse, gibt wichtige Anhaltspunkte, wie ein Sytem der virtuellen Kommunikation gestaltet werden muss. In diesem Kapitel wird ein Konzept erarbeitet, welches mit aktueller Technologie die Angesicht-zu-Angesicht-Kommunikation emulieren soll. Dabei werdem vor allem die nonverbalen Hinweise der Kommunikation in den Vordergrund gestellt. Verbale und paraverbale Informationen können bereits über VoiceChat und über den Textchat mit Emoticons ins Virtuelle übertragen werden. Ein nächste wünschenswerter Schritt wäre, bewusste nonverbale Kommunikation zu transportieren. Aus den Studien im Abschnitt 4.2.2 ergab sich, dass gemeinsame Aufmerksamkeit ein weiterer wichtiger Faktor ist, um Kommunikation erfolgreicher zu gestalten. Basierend auf dem Konzept wird anschliessend die prototypische Umsetzung dieser Arbeit vorgestellt. In der Umsetzung soll gezeigt werden, wie bereits mit einfachen technischen Mitteln große Fortschritte in der virtuellen Kommunikation ermöglicht werden können. 5.1 Beschreibung des Konzeptes Der Stand der virtuellen Kommunikation wurde in Kapitel 3 aufgearbeitet. Das hier zu entwickelnde Konzept erweitert die Virtualisierung der Kommunikation um den nonverbalen Aspekt. Als Träger dieser Kommunikation dient der Avatar und wird in erster Linie über Tastatur und Maus gesteuert. Diese Art der Steuerung virtueller Avatare ist im Vergleich zu Technologien wie der Cave oder einem Head-Mounted-Displays wenig intuitiv. Es wird für das Konzept der Anspruch erhoben, an jedem Standard-PC benutzbar zu sein und den Freiheitsgrad des Nutzers nicht weiter einzuschränken. Große teure Gerätesysteme, sowie behindernde Eingabgegeräte werden deswegen ausgeschlossen. Es wird davon ausgegangen, dass ein Computer benutzt wird mit Tastatur, Maus, sowie einem normalen Bildschirm. Mit 69 5 Konzept zur Übertragung von Kommunikation in die Virtualität der Steuerung über Tastatur und Maus sind Benutzer Virtueller Welten bereits vertraut, und es wird vorrausgesetzt, dass sie diese Art der Steuerung beherrschen. In die Realisierung des hier vorgestellten nonverbalen Kommunikationskonzeptes sollen Aspekte aus visuellem (Aufmerksamkeit, Gestik, Mimik) und auditivem (Sprache, Tonlage, Klangfarbe) Kommunikationskanal zusammengeführt werden. Das Konzept wird in drei Bereiche strukturiert, welche sich an dem Aufbau von Kommunikation aus Abschnitt 2.2.1 orientieren. Dazu werden zunächst die Kommunikationshinweise des Senders über Eingabekanäle erfasst, diese dann vom Computer interpretiert, um sie letztendlich durch den Avatar als Animation zum Empfänger zu transportieren. 5.1.1 Eingabegeräte Neben Tastatur und Maus, kommt ein weiteres Eingabegerät hinzu. Eine Infrarot-Kamera welche mit einem Mikrofon ausgestattet ist, soll den Nutzer während der Kommunikation visuell und auditiv aufnehmen. Diese Informationen werden vom Computer verarbeitet und analysiert. Die Kamera wird neben dem Monitor positioniert und kann die Augen sowie das Porträt eines Nutzers aufnehmen. Der Freiheitsgrad des Nutzers wird nicht eingeschränkt und stört auch nicht seine Präsenz. Für die Blickrichtungsverfolgung eignet sich das Infrarotspektrum, da die Retina des Auges Infrarotlicht reflektiert. Dies führt zu einer technisch einfachen Erkennung und Verfolgung der Pupille. Spracherkennung Als Eingabegerät steht durch die Webcam weiterhin ein Mikrofon zur Verfügung. Das Mikrofon ist dafür zuständig die verbalen und paraverbalen Kommunikationshinweise des Nutzers aufzunehmen und direkt in die Virtuelle Welt zu übertragen. Im Rahmen eines Voicechats enspricht die verbale Kommunikation dem Stand einer Angesicht-zu-Angesicht-Kommunikation. Aus den paraverbalen Hinweisen eines Sprechers lassen sich Schlüsse auf den Gemütszustand ziehen. Über die Stimmenanalyse1 wird ein emotionales Profil des Sprechers erstellt, um dann auf seinen aktuellen emotionalen Zustand zu schliessen. Es werden die Klangfarbe und die Klangeigenschaften einer Stimme analysiert und bestimmten Emotionen zugeordnet. Die Stimmenanalyse erhöht die Selbstwahrnehmung des Nutzers und liefert ein Indiz für die Intention des Sprechers. Kann eine Emotion aus der Stimmenanalyse gewonnen werden, so 1 weiterführender Link: http://power2voice.emotionalysis.com/de/ 70 5.1 Beschreibung des Konzeptes wird diese Information in den aktuellen Animationszustand eines Avatars mit eingerechnet. Weiterhin können durch die Stimmenanalyse Phoneme des Gesagten erkannt werden, um eine Lippensynchronisation von Nutzer und Avatar zu realisieren. Bildanalyse Neben den paraverbalen Hinweisen aus der Stimmenanalyse, liefert auch die Bildanalyse Informationen für die Steuerung von Avataren. Mit dem Porträtbild eines Nutzers lassen sich, im Zusammenhang mit dem Infrafrotspektrum, verschiedene nonverbale Informationen gewinnen. Durch Erkennen und Verfolgen der Augen, wird die Blickrichtung des Nutzers bestimmt. Ist die Blickrichtung des Nutzers bekannt, kann der Fokus seiner Aufmerksamkeit berechnet werden. Es lässt sich in Erfahrung bringen, wo der Nutzer hinschaut, wen er anschaut und ob er überhaupt aufmerksam ist. Neben der Blickrichtung lässt sich auch der Kopf des Nutzers erkennen und verfolgen. Hieraus kann geschlussfolgert werden, ob überhaupt ein Nutzer vor der Webcam sitzt, und wie der Kopf bewegt wird. Daraus lassen sich die Kommunikationsintentionen Zustimmung und Ablehnung ablesen. So kann zum Beispiel aus einer Schüttelgeste des Kopfes eine ablehnende Haltung des Avatars und aus einer Nickgeste eine zustimmende interpretiert werden. Weitere Informationen werden aus der Mimik des Nutzers gelesen. Die Gesichtsausdruckanalyse ermöglicht Hinweise auf spontane Emotionen und Gesten, welche über die Mimik gesteuert werden. So sind etwa die Ausdrücke Traurigkeit, Überraschung, Angst, Glücklichkeit und Neutralität durch Algorithmen zu 88% zuordenbar (vgl. [Sze10], S. 126). Als letztes sollen bewusste Gesten zur Steuerung des Avatars erkannt werden. Über den optischen Fluss des Bildes und durch das Verfolgen von schnellen Wischgesten, werden Zeigegesten und Gestikulationen detektiert. Dies ist vor allem für Präsentationen sinnvoll, da wichtige nonverbale Hinweise über Gestikulationen und Zeigegesten steuerbar werden. 5.1.2 Interpretation Die Eingabegeräte Tastatur, Maus, Kamera und Mikrofon ergeben gehaltvolle Informationen zum nonverbalen Aspekt der virtuellen Kommunikation. Diese Informationen müssen über ein Entscheidungssystem gebündelt und interpretiert werden. Aus der Menge der Informationen zu Emotion,Gestik und Mimik des Nutzers wird die Kommunikationsintention berechnet. 71 5 Konzept zur Übertragung von Kommunikation in die Virtualität Interaktionsklassen Abhängig vom Interaktionszustand ist auch die Interpretation bestimmter Eingabeinformation. Schüttelt zum Beispiel ein Nutzer den Kopf, während er sich in einer Konversation befindet, deutet dies auf Ablehnung hin. Wird der Kopf hingegen geschüttelt, während der Nutzer alleine ist, kann dies ein Zeichen von Traurigkeit bedeuten. Je nachdem ob sich der Nutzer in einer Konversation befindet, sich einer annähert oder alleine steht, müssen die Informationen unterschiedlich interpretiert werden. Kommunikationsintention Ist der Interaktionszustand definiert, muss ein Algorithmus die Intention der Kommunikation bestimmen. Im Speziellen ist dies für die Gesten- und Mimikerkennung von Bedeutung. Bereits durch unterschiedliche Lokalisierung des Nutzers kann eine Gestik oder Mimik etwas Verschiedenes bedeuten. Während das Kopfnicken in Deutschland allgemein als Zustimmung interpretiert wird, gibt es beispielsweise Orte in Griechenland, wo Kopfnicken Ablehnung bedeuten kann. 5.1.3 Visualisierung Aus der Interpretation der Eingabegeräte werden Gesten, Emotionen, Mimiken zu Kommunikationsintentionen kombiniert. Diese Intentionen gilt es dann auf dem Avatar zu visualisieren. Lippensynchronisation Aus der Stimmenanalyse lassen sich dem Gesprochenen Phoneme zuordnen. Diesen Phonemen wiederum können Viseme, also Mundstellungen, zugeordnet werden. Die Stimmenanalyse erkennt in Echtzeit Phoneme, welche dann als Viseme auf den Avatar übertragen werden. Durch die Lippensynchronisation lässt sich ein neuer Grad an Verhaltensrealismus generieren, da nunmehr das Gesprochene mit den Mundstellungen des Avatars übereinstimmt. Gesten Es gibt mehrere Wege, um Gesten zu erkennen und auf einen Avatar zu übertragen. Der optimale Weg ist die Eins-zu-Eins-Übertragung der Geste auf das Polygonnetz des Avatars. 72 5.1 Beschreibung des Konzeptes Die Server-Client-Architektur ermöglicht jedoch nur eine symbolhafte Übertragung der Animationen (vgl. Kapitel 3.1.2). Eine weitere Variante ist die Analyse der Geste aufgrund ihrer Intention. Ein Algorithmus muss die Geste verfolgen und darauf basierend eine Gestenintention berechnen. Weiß der Nutzer welche Gesten ihm zur Verfügung stehen, kann er damit bewusst die Animationen des Avatars steuern. Der Anzahl von Gesten soll hier keine Grenzen gesetzt werden. Je mehr Gesten dem Nutzer zur Verfügung stehen, umso differenzierter lässt sich nonverbale Kommunikation übertragen, so zum Beispiel Zeigegesten, welche den Avatar auf ein bestimmtes Objekt zeigen lassen, oder etwa Gesten, wie Hände über dem Kopf schlagen oder aufgeregtes diskutieren. Weitere Gesten sind Kopfnicken und -schütteln für Zustimmung und Ablehnung des Kommunikationspartners. Mimik Basierend auf der Mimikanalyse erkennt der Computer, welche Emotionen der Aufgenommene gerade durchlebt und welche grundlegende Stimmung dem Nutzer zugeordnet werden kann. Darauf basierend können die Morpher des Gesichts, beschrieben in Kapitel 3.1.2, den Emotionen und Stimmungen angepasst werden. Durch genügend Morpher für die Ausdrücke überrascht, traurig, angeekelt, glücklich, wütend und ängstlich können typische emotionale Gesichtsausdrücke abgedeckt werden. Zur Mimik gehören allerdings noch subtilere Ausdrücke, wie Augenbrauen hochziehen, welche zum Beispiel auf mangelndes Zutrauen in einer Kommunikation schliessen lassen. Durch die mangelnde Eindeutigkeit der Denotationen (vgl. Kapitel 4.1.2) können solche Mimikhinweise, die von dem individuellen Nutzer abhängig sind, nicht standardisiert werden. Denkbar wäre ein System, welches sich an den Nutzer anpasst, um derartige Hinweise zu erkennen. Dies liegt allerdings außerhalb des Fokus dieser Arbeit. Aufmerksamkeit Es gibt drei Wege um die Aufmerksamkeit des Nutzers zu bestimmen. In aktuellen Umsetzungen wird gewartet, bis eine bestimmte Zeit lang keine Eingaben durch Tastatur oder Maus betätigt wurden, um dann den Nutzer in den Zustand „abwesend“ zu versetzen. Durch die Bildanalyse kann der Kopf eines Nutzers verfolgt werden. Ist ein Kopf oder ein Gesicht im Bild zu erkennen, sitz ein Nutzer vor dem Computer. Der schnellste Weg, die Aufmerksamkeit des Nutzers festzustellen, erlaubt die Blickrichtungsverfolgung der Augen. Hiermit kann bestimmt werden, ob der Nutzer auf den Computer schaut oder nicht um dann sofort den Animationszustand des Avatars darauf anzupassen. 73 5 Konzept zur Übertragung von Kommunikation in die Virtualität Die Blickrichtungsverfolgung erlaubt weiterhin, virtuell Augenkontakt herzustellen. Dank dieser Technologie kann verfolgt werden, ob der Nutzer einen anderen Charakter anschaut. Dieses kommunikative Feedback kann auf den Avatar übertragen werden, sodass er dem anderen Charakter in die Augen schaut. Die Blickrichtungsverfolgung erhöht die Präzision computervermittelter Kommunikation und den Grad der sozialen Präsenz. 5.1.4 Bewertung Aufbauend auf den Bewertungskriterien dieser Arbeit, kann der Stand Virtueller Welten mit dem erstellten Konzept verglichen werden. Modalität der Eingabe Freiheitsgrad der Eingabe Renderdetail Animationsdetail Immersion der Ausgabe Granularität der Eingabe Animationsvielfalt Identifikation Konzept Mikrofon, Videokamera, Tastatur, Maus Textchat über die Tastatur, Sprache über das Mikrofon, freie nonverbale Steuerung High-DefinitionRasterisierung mit Transparenz und Shadern Abhängig vom Verfahren der Animationserstellung Abhängig vom Computer des Nutzers Abhängig vom Computer des Nutzers Abhängig von den integrierten Animationszuständen: normalerweise Untätig, Laufen, Gehen, Fliege, Springen Avataranpassungen Textur, Animation Aussehen möglich von und Virtuelle Welt Mikrofon, Tastatur, Maus Textchat über die Tastatur, Sprache über das Mikrofon, nonverbale Steuerung über Tastatur High-DefinitionRasterisierung mit Transparenz und Shadern Abhängig vom Verfahren der Animationserstellung Abhängig vom Computer des Nutzers Abhängig vom Computer des Nutzers neben den StandardAnimationszuständen wurden die Zustände: Zustimmung, Ablehnung, Lippensnychronisierung, Aufmerksamkeit und Mimik zugefügt Avataranpassungen von Textur, Animation und Aussehen möglich Tabelle 5.1: Vergleich Konzept und Analyse Durch die Tabelle wird offensichtlicht, dass sich die Faktoren der Präsenz weitesgehend gleichen. Bei Faktoren der sozialen Präsenz unterscheiden sich hauptsächlich die Animationsvielfalt und die Modalität der Eingabe. Durch die Hinzunahme einer Kamera und die damit verbundene Differenzierung in der nonverbalen Kommunikation, ist zu erwarten, dass sich 74 5.2 Prototypische Umsetzung die soziale Präsenz von Nutzern in Virtuellen Welten verbessern, wird das erstellte Konzept implementiert. 5.2 Prototypische Umsetzung Das in Kapitel 5.1 erstellte umfassende Konzept der Integration nonverbaler Kommunikation in die Virtuellen Welten wurde in dieser Diplomarbeit auch praktisch umgesetzt. Dabei musste auf das Fehlen einer Infrarotkamera Rücksicht genommen werden, denn nicht an jedem PC können Infrarotkameras vorrausgesetzt werden. Kameras hingegen werden standardmäßig in Laptops eingebaut, um Videochat zu ermöglichen. Diese sind aber noch nicht hochauflösend genug, um Algorithmen zur Blickverfolgung zu implementieren. Desweiteren erfolgte der Verzicht auf die Einbeziehung umfangreicher Lernalgorithmen. In der Umsetzung wird nur mit bereits angelernten Klassifizierern gearbeitet und die Gesichtsausdrucks- und Stimmenanalyse in der softwaretechnischen Realisierung nicht umgesetzt. Die Umsetzung fokussiert sich allein auf den Machbarkeitsnachweis des Konzeptes. Die praktische Umsetzung verbindet die Bildanalyse mit der Tonsignalerkennung. Die Teile des Konzeptes, die in der Diplomarbeit umgesetzt wurden, sind die Gesichtserkennung, die Gesichtsverfolgung, sowie die Gesten- und Tonsignalerkennung. Jene dienen der Wahnehmung nonverbaler Hinweise des Senders. Aufbauend darauf erfolgt die Zuordnung dieser Kommunikationsaspekte durch ein Interpretationssystem. Anschliessend wird die Kommunikationsintention auf vorher definierte Animationszustände des Avatars übersetzt. Das Polygonnetz des Avatars ist frei erhältlich. Der Autor hat das Skelettsystem des Avatars erstellt und die Animationen auf Grundlage von eigenen experimentell gewonnenen Motion-Capture-Daten generiert. Zusätzlich wurde eine Gesichtstextur des Autors erstellt, um den Effekt der Eigenrepräsentation zu erreichen und die Selbstwahrnehmung zu erhöhen. Die Ergebnisse der Umsetzungen sind auf der beiliegenden CD zu finden. Hierzu zählen der Source-Code der prototypischen Umsetzung mit Avataranimationen, der Source-Code zur Gesichtserkennung und -verfolgung und die entsprechenden kompilierten Programme in der 64 Bit Version. Desweiteren ist der Avatar mit Skelett, Textur und Animationen gespeichert, sowie die Motion-Capture-Daten und die Videos der Motion-Capture-Aufnahmen. 5.2.1 Gesichtserkennung Der verwendete Algorithmus für die Gesichterkennung ist der Viola-Jones Algorithmus aus [VJ02]. Er zeichnet sich durch vier Eigenschaften aus: einfache rechteckige Merkmale, ein 75 5 Konzept zur Übertragung von Kommunikation in die Virtualität Gradientenbild für schnelle Merkmalserkennung, den Ada-Boost Lernalgorithmus und eine kaskadierte Klassifizierung, um möglichst viele Merkmale effizient zu verbinden. Die Merkmale, die Viola und Jones benutzen, nennen sich Haar-Merkmale und basieren auf HaarWavelets. Haar-Wavelets sind Funktionen mit einem kleinen und einem hohen Interval. In den zwei Dimensionen der Bildverarbeitung besteht eine Rechteckswelle aus aneinander grenzenden Rechtecken mit abwechselnd hellen und dunklen Bereichen, wie in der Abbildung 5.1 zu sehen ist. Im Viola-Jones Algorithmus werden Haar Wavelets nicht direkt benutzt, sondern auf Haar-ähnliche Merkmale abstrahiert. Diese sind Rechteckskombinationen, welche sich besser für Aufgaben zur visuellen Wahrnehmung eignen. Um Haar-ähnliche Merkmale im Bild zu finden, werden die Helligkeitswerte zweier nebeneinander liegender Rechtecke gemittelt und dann voneinander subtrahiert. Liegt die Differenz über einem Schwellenwert, der während des Lernens gesetzt wurde, ist ein Merkmal gefunden. Um die Präsenz der Haar-Merkmale an unterschiedlichen Orten und über unterschiedlich großen Rechtecken im Bild zu finden, müssen hunderte dieser Tests pro Bild gemacht werden. Damit dies effizient geschehen kann, haben Viola und Jones eine Technik benutzt, die Gradientenbild heisst. Gradient meint hier das Addieren kleiner Bildeinheiten, also die Helligkeitswerte der Pixel. Der Gradialwert bestimmt sich aus der Summe aller Helligkeitswerte über und links von dem aktuellen Pixel. Um dann den Durchschnitt dieses Rechteckes zu bekommen, muss der aufaddierte Wert durch die Fläche des Rechteckes dividert werden. Abbildung 5.1: Verwendete Merkmale im Viola-Jones-Algorithmus Um das spezifische Haar-Merkmal zu finden und den richtigen Schwellwert zu setzen, benutzen Viola und Jones eine Maschninenlernmethode, die AdaBoost genannt wird. AdaBoost kombiniert mehrere schwache Klassifizierer, um einen starken Klassifizierer zu generieren. Schwach bedeutet in diesem Zusammenhang, dass die Antwort des Klassifizierers nur ein wenig öfter die richtige Antwort trifft, als ein zufälliges Raten sie treffen würde. Der Trick ist es, viele dieser schwachen Klassifizierer zusammen zu schliessen, um dann einen starken Klassifizierer zu bilden. Jede schwache Entscheidung drückt die Gesamtentscheidung ein Stück mehr in die richtige Richtung. AdaBosst sucht mehrere dieser schwachen Klassifikatoren aus und wichtet sie, sodass die gewichtete Kombination der schwachen Klassifizierer einen starken 76 5.2 Prototypische Umsetzung Klassifizierer ergeben. Viola und Jones verbinden zahlreiche AdaBoost Klassifizierer zu einer Filterkette zusammen. Besteht eine Region jeden Klassifizierer dieser Filterkette, wird sie als Gesicht erkannt. Ist dies nicht der Fall, wird die Region ignoriert. Viola und Jones nennen diese Filterkette eine kaskadierte Klassifizierung. In dieser Diplomarbeit wurden zwei AdaBoost Klassifizierer benutzt. Zum Einen ist dies der „Frontal Face Detector“ von Rainer Lienhart, welcher aus 20 mal 20 schwachen Klassifizieren gebildet wird. Der zweite AdaBoost Klassifizierer ist der „Left Eye Detector“ der University of Las Palmas in Gran Canaria aus [CSDSHSLN07]. In der Abbildung 5.2 sind beide Klassifizierer erfolgreich und konnten ein Gesicht und das linke Auge erkennen. Abbildung 5.2: Beispiel Gesichtserkennung 5.2.2 Gesichtsverfolgung Nachdem ein Gesicht im Kamerabild gefunden wurde, soll dieses Gesicht verfolgt werden. Hierfür wird der Continuously Adaptive Mean Shift Algorithmus, kurz Cam-Shift-Algorithmus, aufbauend auf dem Mean-Shift-Algorithmus aus [CM02], benutzt. Der Cam-Shift-Algorithmus besteht aus mehreren Schritten. Zunächst wird ein Farbhistogramm für das Rechteck erstellt, das das Gesicht beinhaltet, wobei für jeden Farbwert die Anzahl der Pixel aufsummiert werden, welche diesen Farbwert besitzen. Daraus ergibt sich eine Tabelle mit Häufigkeiten von Farbwerten, welche auch als Balkendiagramm dargestellt werden können. In Abbildung 5.3(a) ist ein solches Histogramm gezeigt. Bei dem Cam-ShiftAlgorithmus wird der HSV-Farbraum benutzt, da sich der Farbwert (Hue) besonders zur Verfolgung von Gesichtern eignet. Im Beispiel der Abbildung 5.3(a) ist der blaue Farbwert am häufigsten und danach konnt ein eher lilaner Farbwert. 77 5 Konzept zur Übertragung von Kommunikation in die Virtualität Dieses Histogramm wird nur am Anfang der Gesichtsverfolgung erstellt. Es ist ein Art Stempel für die Farbverteilung des Gesichtes. Hier ergeben sich auch erste Schwächen des Algorithmus. Ändert sich der Farbwert des Bildes, durch neue Lichtverhältnisse zum Beispiel, stimmt das Histogramm nicht mehr mit der Farbverteilung des Gesichtes überein. Ist das Histogramm für das Gesicht bestimmt, wird jedem Pixel in den folgenden Bilder ein Wahrscheinlichkeitswert zugeordnet. Dieser Wahrscheinlichkeitswert, entspricht dem Anteil des Pixelfarbwertes am Gesichts-Histogramm. In dem Beispielbild entspricht der blaue Farbwert etwa 50% der gesamten Gesichts-Histogrammes. Damit wäre der Wahrscheinlichkeitswert für einen Pixel mit diesem Farbwert etwa 50%. In den folgenden Bildern wird für jeden Pixel dieser Wahrscheinlichkeitswert ausgerechnet und ergibt ein Bild wie in Abbildung 5.3(b). Je heller der Grauwert in diesem Bild, umso wahrscheinlicher gehört der Pixel zum Gesicht. Auf diesem Wahrscheinlichkeitsbild baut dann das Versetzen des Rechteckes auf. Versetzt wird das Rechteck in den Schwerpunkt der hohen Wahrscheinlichkeiten, also der hellen Punkte in Abbildung 5.3(b). Dabei baut der Algorithmus auf dem Rechteck des vorherigen Bildes auf, um dort den neuen Schwerpunkt der Grauwerte zu berechnen. Der Schwerpunkt verschiebt sich adaptiv, bis sich keine Veränderungen mehr ergeben. Es ist die neue Position des Gesichtes und dem dazugehörigen Rechteck gefunden. Im Unterschied zum Mean-Shift-Algorithmus passt der Cam-Shift-Algorithmus auch die Größe und den Winkel des Rechteckes an. Dabei wird die Größe und der Winkel berechnet, welcher die hellen Pixel des Wahrscheinlichkeitsbildes am besten umrandet. (a) Histogramm (b) Gewichtung der Pixel Abbildung 5.3: Cam-Shift-Algorithmus 5.2.3 Gestenerkennung Ziel im Rahmen der prototypischen Umsetzung war es, die Bewegung des Gesichtes zu verfolgen, um dann auf vorher definierte Gesten zu schliessen. Der Cam-Shift-Algorithmus verfolgt 78 5.2 Prototypische Umsetzung einen Schwerpunkt von Helligkeitswerten. Dadurch ist er nicht dazu in der Lage Bewegungen innerhalb dieser Helligkeitswerte, wie zum Beispiel Kopfschütteln zu erkennen. Er ist somit nicht sensitiv für Gestik und Mimik, jedoch unabdingbar, um die aktuelle Position des Gesichtfeldes unter Echtzeitbedingung an die nachfolgenden Algorithmen weiterzugeben. Für die Gestik muss ein weiterer Algorithmus erarbeitet werden, um die genannten Probleme des Cam-Shift-Algorithmus zu überwinden. Der im Folgenden erklärten Algorithmus lässt sich auch zur Mimik- und Gesichtsausdrucksanalyse weiter verfeinern. Um Gestiken im Gesichtsfeld erkennen zu können, müssen in einem lokalen Bildbereich Merkmale verfolgt werden. Merkmale sind lokale Pixelbereiche oder Pixel innerhalb eines Bildes. Sie zeichnen sich durch eine große Distinktheit aus und sollen leicht wieder zu erkennen sein. Typischerweise werden Merkmale gesucht, die starke Veränderung der Intensität oder der Farbwerte in einer lokalen Umgebung besitzen. Diese starken Kontraste sind Zeichen hoher Dynamik und identifizieren Ecken und Kanten von Objektkonturen im Bild. Bei einer Merkmalsextraktion werden demzufolge die wichtigen strukturellen Eigenschaften eines Bildes hervorgehoben. Diese Merkmale eignen sich besonders für die Verfolgung, beziehungsweise der Suche in Folgebildern. Um sie zu finden sollen drei Kriterien des Merkmalsextraktors bestmöglich erfüllt werden: • Die wichtigste Aufgabe ist es, falsche Ecken zu minimieren. Gerade durch Rauschen werden Merkmale oftmals falsch detektiert. • Eine detektierte Ecke soll einer guten Lagebestimmung unterliegen. Das bedeutet, der Abstand zwischen dem berechneten Eckpixel und der echten Ecke ist minimal. • Für einen Eckpunkt soll nur ein Punkt zurück gegeben werden. Die Anzahl der lokalen Maxima, ausgelöst durch Rauschen um den Punkt herum, soll minimal sein. In dieser Arbeit wird der Shi-Tomasi-Detektor für „gute Merkmale zur Verfolgung“ benutzt. Er untersucht die Farbintensität von Pixeln. Hierfür wird die Ableitung der Intensitätswerte I in x- und y -Richtung bestimmt. Das Ergebnis entspricht den Gradienten der Farbwerte an einem Pixel in horizontale, vertikale und diagonale Richtungen. Die Gleichung 5.1 ist die mathematische Entsprechung. " M= Ix2 Ixy Ixy Iy2 # (5.1) M wird als Kovarianzmatrix bezeichnet, und die Eigenwerte dieser Matrix sind genau dann groß, wenn eine Ecke vorliegt. Ist jeweils nur ein Eigenwert der Kovarianzmatrix groß, liegt lediglich eine Kante vor. Die Eigenwerte sind folglich ein Maß für die „Kantigkeit“ zweier orthogonaler Gradienten. Für einen ausgezeichneten Eckpunkt definieren Shi und Tomasi 79 5 Konzept zur Übertragung von Kommunikation in die Virtualität das in Gleichung 5.2 dargestellte Auswahlkriterium. K = det(M) − µ(tr ace(M))2 (5.2) Der Faktor µ ist ein Gewichtungsfaktor und wurde von Shi und Tomasi empirisch zu 0.04 bestimmt. Dieses Kriterium wurde später von Tomasi noch um die Bedingung mi n(λ1 , λ2 ) > λ erweitert, damit der kleinere Eigenwert der Kovarianzmatrix M auch über einem bestimmten Schwellwert liegt, um die Zuverlässigkeit des Algorithmus zu verbessern. Ein Beispiel des Shi-Tomasi-Detektors ist in Abbildung 5.4 zu sehen. Hier wurde das durch den Cam-ShiftAlgorithmus verfolgte Gesichtsfeld an den Shi-Tomasi-Detektors weitergegeben. Abbildung 5.4: Shi-Tomasi-Detektor Um die detektierten Gesichtsmerkmale zu verfolgen, werden die Bilder der Kamera analysiert. Ziel ist es, die extrahierten Merkmale über die Sequenz der Bilder zu verfolgen. Die Merkmalsverfolgung ist ein klassisches Aufgabenfeld in der Bildverarbeitung. Es wird versucht, Korrespondenzpunkte innerhalb zweier Bilder mittels der folgenden Grundannahmen zu finden: Die Merkmale sind in beiden Bildern vorhanden. Die Bildregionen um korrespondierende Merkmale sind gleich. Es handelt sich um einer Suche. Sei ein Element der einen Ansicht gegeben, wird das dazu korrespondierende Element der anderen Ansicht gesucht. Die maßgeblichen Kriterien sind, wie Bildelemente verglichen werden, und welches Ähnlichkeitsmaß verwendet wird. In dieser Arbeit wird der Lucas-Kanade-Algorithmus zur Bestimmung von Korrespondenzpunkten benutzt. Er wurde 1981 von Bruce Lucas und Takeo Kanade vorgeschlagen [LK81]. Zunächst war es als Ansatz gedacht, um die globale Bewegung in einem Bild zu verfolgen. Da die Methode auch einfach auf einen Unterbereich des Bildes angewendet werden kann, ist sie zu einer der bedeutendsten lokalen Merkmalsverfolgungsalorithmen geworden. Der Algorithmus geht von drei grundlegenden Annahmen aus: 80 5.2 Prototypische Umsetzung • Helligkeitskonstanz. Ein Pixel verändert nicht die Hellikeit wenn er sich von Bild zu Bild bewegt. Für Grauwertbilder bedeutet dies, dass die Intensität eines Pixels nicht über die Sequenz der Bilder variiert. • Temporale Beständigkeit. Das Bild einer Oberfläche bewegt sich in kleinen Schritten über die Zeit. Die Zeitschritte sind relativ zur Bildbewegung häufig genug, um nur kleine Pixelbewegungen zu gewährleisten. • Räumliche Kohärenz. Benachbarte Punkte in einer Szene gehören zur gleichen Oberfläche, haben die gleiche Bewegung und werden durch die Kamera wiederum benachbart abgebildet. Diese Annahmen lassen sich mathematisch ausdrücken. Die erste Annahme über die Helligkeitskonstanz bedeutet: (5.3) I(x, y , t) = I(x + u, y + v , t + 1) Nach Gleichung 5.3 ändert sich die Pixelintensität des Objektpunktes nicht über die Zeit: δI(x, y ) =0 δt (5.4) Wenn ein Bild zu einer Zeit t aufgenommen wird, so unterscheidet es sich von dem folgenden Bild t + 1 nur in einer Verschiebung um (u, v ). Darin ist bereits die zweite Annahme die „temporalen Beständigkeit“ enthalten. Sie besagt, dass es nur kleine Bewegungen von Bild zu Bild gibt. Die Gleichungen 5.3 und 5.4 können umgestellt und mit einer Taylor Reihe erweitert werden, was in aller Ausführlichkeit in [LK81] beschrieben ist. Der Punkt hier ist, dass die räumliche Kohärenz noch integriert wird. Wenn sich ein Pixelbereich kohärent bewegt, dann kann ein Fenster um einen Pixel benutzt werden, um ein System von Gleichungen zu generieren. Wenn zum Beispiel ein 5 × 5 Fenster von Helligkeitswerten benutzt wird, dann ergeben sich 25 Gleichungen aus den drei Annahmen des Lucas-Kanade-Algorithmus. Diese lassen sich lösen und es ergibt sich die Gleichung: "P P Ix2 Ixy P Ixy P 2 Iy #" # u v "P =− P Ixt Iy t # woraus folgt " # u v = −(AT A)−1 AT b (5.5) Aus dieser Beziehung resultieren die Komponenten u und v des Bewegungsvektors. Dazu muss (AT A) invertierbar sein. (AT A) ist invertierbar, sobald die Matrix den Rang 2 besitzt. Dazu wiederum werden zwei große Eigenvektoren benötigt, was vor allem in Pixelbereichen mit einer großen Varianz der Helligkeitswerte in x- und y-Richtung erfüllt ist. Dies schliesst den Kreis zur Merkmalsextraktion, bei welcher mit dem Shi-Tomasi-Detektor solche Ecken gesucht werden. In Abbildung 5.5 ist eine Merkmalsverfolgung dargestellt. Aufbauend auf der Merkmalsextraktion des Shi-Tomasi-Algorithmus und ihrer Verfolgung 81 5 Konzept zur Übertragung von Kommunikation in die Virtualität Abbildung 5.5: Merkmalsverfolgung durch den Lucas-Kanade-Algorithmus, kann für die Merkmale ein Bewegungsvektor berechnet werden. Die Bewegungsvektoren der einzelnen Merkmalen werden anschließend zu einem Bewegungsvektor des gesamten Gesichtfeldes zusammengefasst. Die Bewegungsvektoren benachbarter Bilder werden dann zu einem Vektor über einen Zeitverlauf von 30 Bildern verallgemeinert. Dieser resultierende Vektor wird daraufhin mit einer Gestenschablone vergleichen. Erstellt wurden für diese Arbeit zwei Gestenschablonen, zum Einen eine alternierende horizontale Bewegung, was dem Kopfschütteln entspricht und zum Anderen eine alternierenden vertikale Bewegung, was zur Erkennung eines Kopfnicken führt. 5.2.4 Tonsignalerkennung Für die Tonsignalerkennung, beziehungsweise die Feststellung, ob jemand spricht, entschied sich der Autor für eine Umsetzung mit dem Schwerpunkt auf die Lautstärkendetektion des Mikrofons. Sobald die Lautstärke des Mikrofoneinganges einen bestimmten Schwellwert überschreitet, wird der Avatar auf den Zustand „Sprechen“ gesetzt. Da sich diese Arbeit mit der nonverbale Kommunikation Virtueller Welten beschäftigt, wird hier diese Form der Lösung angestrebt. Sollte, wie im Abschnitt 5.1 dargelegten Konzept eine komplexe Stimmenanalyse durchgeführt werden, wäre eine extensive Erarbeitung von Maschinenlernalgorithmen erforderlich. Letzteres würde den Umfang dieser Diplomarbeit sprengen. 5.2.5 Interpretation Durch die vorstehend implementierten Bildanalyse- und Tonsignalerkennungsalgorithmen steht dem Interpretationssystem verschiedene nonverbale Kommunikationshinweise zur Verfügung. 82 5.2 Prototypische Umsetzung Zunächst wurden Kamerabilder auf Gesichter untersucht. Konnte ein Gesicht erkannt werden, wurde dieses im Bild verfolgt und als Bereich markiert. Innerhalb dieses Bereiches erfolgte anschließend eine Augendetektion. Kann ein Auge gefunden werden, wird nun die Gestenerkennung gestartet, indem punktförmige Merkmale im Gesichtsfeld bestimmt und verfolgt werden. Nebenher analysiert ein weiterer Algorithmus das Mikrofonsignal. Das Interpretationssystem weist nun verschiedenen Kombinationen von nonverbalen Hinweisen verschiedene Zustände des Avatars zu (siehe Tabelle 5.2). Nonverbale Hinweise Auge erkannt Auge nicht erkannt Gestenvektor vertikal Gestenvektor horizontal Tonsignal erkannt Tonsignal und Gestenvektor Zustand des Avatars Untätig nicht am Rechner Zustimmung Ablehnung Sprechen Sprechen und Gestikulieren Tabelle 5.2: Interpretation der Eingabehinweise 5.2.6 Visualisierung Durch das Interpretationssystem werden die nonverbalen Hinweise auf Avatarzustände abgebildet. Diese beeinflussen den Zustand des Avatares. Die Zustände beeinflussen unmittelbar, welche Animationen des Avatars abgespielt werden. Für die Umsetzung wurde der frei erhätliche Avatar „Jack“ mit einer neuen Gesichtstextur (siehe Grafik 5.6) versehen. Hierfür wurden mehrere Bilder aus unterschiedlichen Positionen analysiert und zu einer Textur zusammengeführt. Diese Textur wird dem Avatar zugewiesen, um die Ähnlichkeit des Avatars mit dem Autor zu erhöhen und somit die Eigenrepräsentation zu befördern. Um den Avatar letztendlich zu bewegen, wurde ihm vom Autor ein Skelett angepasst. Neben dem Skelett wurden weiterhin Morphanimationen erstellt um den Zustand des „Sprechens“ animieren zu können. Diese bestehen aus drei verschiedenen Visemen, welche durch ein Nacheinanderausführen der Morphanimationen (vgl. Kapitel 3.1.2) eine Sprechanimation modellieren. 83 5 Konzept zur Übertragung von Kommunikation in die Virtualität Abbildung 5.6: Avatar mit Gesichtstextur des Autors Motion-Capture Dank Professor Wacker an der HTW Dresden2 war es im Rahmen dieser Arbeit möglich, Motion-Capture-Sequenzen des Autors zu erstellen (siehe Abbildung 5.7). Die Sequenzen wurden vom Autor weiter verarbeitet, um die generierten Skelettdaten auf einen systemeigenen Skeletttyp portieren zu können. Diese Zwischenergebnisse konnten dann auf das Skelett des Avatars projiziert und in den Prototypen für hohen Gehalt an Eigenrepräsentation integriert werden. Die erstellten Animationen entsprechen den Zuständen Zustimmung, Ablehnung, Gestikulieren und Abwesenheit. (a) Bewegung des Autors (b) Animation auf dem Avatar Abbildung 5.7: Motion-Capture-Aufnahmen an der HTW Dresden 2 http://idw-online.de/pages/de/news347683 84 5.3 Zusammenfassung 5.3 Zusammenfassung Auf der Grundlage der Bewertungskriterien aus Kapitel 4, wurde eine Konzept virtueller nonverbaler Kommunikation erstellt. Als zusätzliches Eingabegerät wird die Kamera eingeführt, welche visuelle nonverbale Hinweise erkennen und übermitteln soll. Dabei wird auf den Freiheitsgrad der Eingabe verwiesen, denn es gibt auch Blickverfolgungsgeräte und Virtual Reality Helme, welche den Nutzer stark einschränken. Mit einer Kamera wird keine Bewegung eingeschränkt und neuere Computer werden bereits mit einer Kamera geliefert. Integriert in heutige Kameras sind Mikrofone, um die verbale und paraverbale Kommunikation zu übertragen. Die Bilder der Kamera wurden durch die Bildverarbeitung hinsichtlich nonverbaler Hinweise analysiert. Es ergeben sich verschieden Informationen aus verschiedenen Algorithmen. So kann die Aufmerksamkeit mit Hilfe einer Augenanalyse beobachtet, bewusste Gesten mit einer Analyse des Porträtausschnittes gewonnen und nonverbale Hinweise aus der Gesichtsausdrucksund Stimmenanalyse der Kamera extrahiert werden. Sind die Hinweise aus den Bildern erschöpfend untersucht, wird darauf eine Interpretation zum Avatarzustand bestimmt. Diese Interpretation sollte auf ein Individuum direkt angepasst werden, da die Denotation dieser Merkmale nicht universell einsetzbar ist. Visualisiert werden die gesammelten Hinweise auf zwei Arten. Einmal können sie direkt übersetzt werden, wie zum Beispiel bei der Lippensynchronisation, andererseits können Bewegungsicons erstellt werden. Welches Bewegungsicon, zu welcher Zeit abgespielt wird, muss dann das Interpretationssystem vorgeben. Das Konzept klingt plausibel, lässt sich aber nicht eins zu eins umsetzen. Um zu zeigen, wie sich mit moderatem Aufwand im Rahmen einer Diplomarbeit die maßgeblichen Hinweise aus dem Kamerabild in die virtuelle Kommunikation integrieren lassen, wurden Teile des Konzeptes auch praktisch umgesetzt. Aus dem Kamerabild wird ein Gesicht extrahiert und das Gesichtsfeld dann verfolgt. Wird kein Gesicht erkannt, startet beim Avatar die Animation des Abwesenheitszustandes. Wird ein Gesicht erkannt, so wird dieses verfolgt und auf die Bewegungsmuster Kopfnicken und Kopfschütteln getestet. Im Zusammenhang mit der Tonsignalanalyse sind relevante Zustände des Nutzers erkennbar und auf einen Avatarzustand projizierbar. Durch Motion Capture und Texturanpassung, konnte zusätzlich noch die Eigenrepräsentation im Prototyp integriert werden. 85 6 Fazit Im letzten Kapitel der Diplomarbeit wird sie noch einmal resümiert. Durch einer Zusammenfassung werden die Hauptpunkte der Arbeit herausgestellt. Basierend auf der Zusammenfassung können dann die Ergebnisse der Arbeit diskutiert werden. Abschliessend erfolgt ein Ausblick über weitere potentielle Forschungsfragen. 6.1 Zusammenfassung Das Ziel der Diplomarbeit war es, die virtuelle Kommunikation um Hinweise nonverbaler Kommunikation zu erweitern. Dazu mussten zuerst die Grundlagen Virtueller Welten und Kommunikation erarbeitet werden. Um nonverbale Hinweise zu übertragen, werden Kamera und entsprechende Analysealgorithmen benötigt, deren Elementarwissen der Computer Vision im dritten Teil der Grundlagen definiert wird. In den Grundlagen der Kommunikation wurde besonders auf die zwischenmenschliche Kommunikation eingegangen. Wechselseitigkeit, Sprachlichkeit, Reflexivität, Intentionalität und Anwesenheit sind diejenigen Konzepte, die Kommunikation zwischen Menschen definieren und ziehen sich als Themen durch die gesamte Arbeit. Es wurde begründet, dass Virtuelle Welten computergeneriert und damit synthetisch sind. Sie unterliegen softwaretechnologischen Einschränkungen, was sich vor allem auf den Freiheitsgrad des Avatar-Systems auswirkt. Avatare sind die dreidimensionalen Repräsentaten der Menschen in Virtuellen Welten. Sie basieren auf einer computergrafischen Berechnung aus Polygonen, die sich durch viele technische Kniffe der Fotorealität annähern. Diese Polygonnetze auch in der Bewegung realistisch darzustellen, ist durch den Effekt des „Unheimlichen Tales“ nicht einfach, konnte jedoch durch die Methode des Performance-Captures minimiert werden. Die Animationen der Avatare sind dadurch bewegungsrealistisch geworden, wie auch der Film „Avatar:Aufbruch nach Pandora“ eindrucksvoll zeigte. Es stellte sich ebenso heraus, dass die Animationen nicht den realen Bewegungen der Nutzer entsprechen, sondern nur Icons für jene sind. So stellen die Animationen nur Muster für einen bestimmten Bedeutungsgehalt, das heisst für eine bestimmte Intention des Nutzers, jedoch nicht für dessen reale Abbildung dar. 87 6 Fazit Virtuelle Welten können demnach auf einen hohen Grad an Fotorealismus und Bewegungsrealismus zurückgreifen. Anders sieht es da in der Kommunikation aus. Die Analyse hat ergeben, dass zwar textuelle (Intentionalität) und sprachliche Kommunikation (Sprachlichkeit) unterstützt werden, diese Erfahrungen sich jedoch kaum von einer Telefonkonferenz unterscheiden. Der logische nächste Schritt ist, die nonverbale Kommunikation zu integrieren. Wird diese erfolgreich eingeführt, kann sich die virtuelle Kommunikation über Avatare von der über Videokonferenzen abheben und einen bedeutenden Qualitätssprung in Richtung Angesicht-zu-Angesicht-Kommunikation machen. Um den Unterschied zwischen virtuellen Kommunikationen messbar zu machen, um dadurch erst ein quantitatives „verbessern“ virtueller Kommunikation zu ermöglichen, wurde in dieser Arbeit ein Bewertungssystem entwickelt. Dafür analyisierte der Autor die technischen Fähigkeiten Virtueller Welten und stellte sie in Zusammenhang mit den Einflussfaktoren für den Erfolg virtueller Kommunikation. Durch diese methodische Vorgehensweise kann die Präsenz (Anwesenheit) und die soziale Präsenz (Wechselseitigkeit, Reflexivität), basierend auf technologischen Möglichkeiten, in verschiedenen Virtuellen Welten verglichen werden. Das Bewertungssystem zeigt weiterhin auf, welche technische Fähigkeiten benötigt werden, um die Effekte der Präsenz und der sozialen Präsenz zu bewirken. Daran orientiert konnte ein Konzept erstellt werden, welches sich neben Tastatur und Maus auch der Kamera bedient. Diese erlaubt es dem Computer nonverbale Hinweise der Kommunikation zu erfassen und auf den Avatar als Bewegungsmuster abzubilden. Das Konzept wurde als Prototyp zudem praktisch umgesetzt. Die Bilder der Kamera werden dabei auf Gesichter untersucht. Sind Gesichter gefunden, werden sie verfolgt und auf Bewegungsmuster und Gestenintentionen analysiert. Einfache nonverbale Hinweise wie Zuneigung (Nicken), Ablehnung (Kopfschütteln) und Aufmerksamkeit (Auge erkennbar?) konnten auf Avataranimationen projiziert bereits implementiert werden. 6.2 Ausblick Es gibt unterschiedliche Ansätze, virtuelle Kommunikation zu verbessern. Es können die Bewertungskriterien weiter verfeinert werden, um genauere Vergleiche zu erhalten, es kann das Konzept weiter ausgebaut und komplett umgesetzt werden, und es besteht Bedarf beim Verständnis der Einflussfaktoren auf die Erlebnistiefe und deren Zuordnung zu Technologien. Im Folgenden sollen zu jedem dieser Punkte ein paar Beispielthemen erarbeitet, sowie zukünftige Entwicklung virtueller Kommunikation skizziert werden. 88 6.2 Ausblick Bewertungskriterien In dieser Arbeit wurden die Bewertungskriterien aus der Analyse technologischer und psychologischer Zusammenhänge erarbeitet. Um aber eine genaue Messung und Punktevergabe zu ermöglichen, sollte jedem der technologischen Fähigkeiten eine klare Wichtung und genaue Attribute zugeordnet werden. So könnte für den Faktor Renderdetail eine Reihe Technologien zur Auswahl gestellt werden. Es ist vorstellbar, dass dem Renderdetail die Attribute Rasterisierung, Raytracing und Punktwolken, zugeordnet werden, welche unterschiedliche Verfahren zum Darstellen Virtueller Welten sind, mit jeweils unterschiedlicher Qualität. Werden diese Unterschiede statistisch analysiert, können sie gewichtet und damit die Bewertungskriterien präzisiert werden. Konzept Wie die Bewertungskriterien lässt sich auch das Konzept vertiefen. In dem Konzept wurde vorgeschlagen, dass einfache Gesten wie Nicken und Kopfschütteln erkannt werden. Dieses Gestensystem sollte erweitert und auf Szenarien zugeschnitten werden. So sind zum Beispiel Gesten für virtuellen Vorträge denkbar. Dabei können Gesten für den Vortragenden und auch für die Zuhörenden erdacht werden, wie zum Beispiel gestikulieren, melden oder zeigen. Um diese Gesten zu erkennen ist es von Vorteil, das Konzept um eine Detektion von Gesten über ein Skelettsystem zu berechnen. In Motion-Capture-Systemen wird über die Schauspieler ein Skelett gelegt. Dasselbe ist auch in Porträtvideos von Kameras umsetzbar. Diese TrackingTechnologie wird zum Beispiel schon von Microsoft, in dem Projekt Natal1 , benutzt. Neben Kameras sind auch Zukunftstechnologien wie das Brain-Computer-Interface „emotiv“ 2 integrierbar. Bei diesem werden über ein EEG und ein Gyroskop emotionale Zustände extrahiert. Emotionen sind durch das EEG präziser bestimmbar, und es wird ermöglicht, die kulturellen Barrieren, welche zum Beispiel bei der Gesichtsausdrucksanalyse noch vorherrschen, zu überwinden. Diese Schritte versuchen erst einmal, die Realität eins zu eins abzubilden. Ist das Ziel erreicht, kann sich mit weiteren Ideen beschäftigt werden. In fantasievollen Zeichentrickfilmen wie „Das wandelnde Schloss“ von Hayao Miyazaki werden Emotionen die Realität noch übertreffend gezeigt. So zerfliesst ein Zauberer in grünen Schleim und ruft dunkle Geister herbei, weil er traurig ist. In einem weiteren Märchen färbt sich ein Mädchen schwarz-weiss in einer sonst bunten Welt, um zu verdeutlichen, wie deprimiert sie ist. Ein anderer Charakter wird transparent, weil er seinen Sinn im Leben verloren hat, und ein wütender Mann wird groß und laut wie ein Riese. Wieder in einem anderen Märchen, dem „Goldenen Kompass“ von 1 2 http://www.xbox.com/de-DE/news-features/news/Controller-free-gaming.htm http://www.emotiv.com/ 89 Glossar Phillip Pullman, steht jedem Menschen ein seelenverwandter Dämon zur Seite. Dieser Dämon enspricht den maßgeblichen Eigenschaften des menschlichen Charakters, so in etwa die weise Eule oder der starke Löwe. Umsetzung Da die Umsetzung in dieser Arbeit nur prototypisch durgeführt werden konnte, gibt es Raum für Verbesserungen und Erweiterungen. Neben der robusteren Umsetzung der Algorithmen der Computer Vision, ist der offensichtlich nächste Schritt die Blickverfolgung für eine Kamera zu implementieren, um einen präzisen Aufmerksamkeitsfokus zu erhalten. In Verbindung mit einer perspektivischen Korrektur, wie von Groh und Zavesky in [GZ08] vorgeschlagen, kann derart Augenkontakt erkannt und umgesetzt werden. Weitere interessante Schritte sind die Umsetzung von Lippensynchronisation zwischen Avatar und Nutzer und die Untersuchungen virtueller Kommunikation in Head-Mounted-Displays oder einer CAVE-Umgebung. Zukünftige Entwicklung Virtuelle Kommunikation wird auf mehreren Wegen vorrangetrieben. Auf der einen Seite gibt es Versuche, Videokonferenzen in die Dreidimensionalität zu übertragen. Andererseits werden die einzelnen Faktoren aus Kapitel 4 weiterentwickelt. Vor allem der Bereich des Fotorealismus entwickelt sich rasant. So gibt es seit Anfang 2010 erste Cloud-ComputingRenderer wie OnLive und OTOY. Dahinter verbirgt sich eine neuartige Technologie, welche die Grafikausgabe Virtueller Welten nicht mehr von Clientrechner berechnen lässt, sondern unmittelbar vom Server selbst erfolgt. Diese Server sind auf das Rendern spezialisiert und haben eine Rechenfähigkeit im Bereich von Petaflops pro Sekunde. Diese Fähigkeiten sind nicht für gewöhnliche Heimrechner und Mobiltelefone vorstellbar und erlauben die Berechnung von Fotorealistischen Bildern in Echtzeit. Ein weiterer Ansatz wurde bereits in dieser Arbeit verfolgt. Die Integration von Porträtvideos aus Webkameras erlaubt Blickrichtungsverfolgung, Emotionserkennung und Gestiken in Virtuellen Welten. Damit lässt sich das Gefühl der sozialen Präsenz maßgeblich verstärken. Zusammen mit der Entwicklung von Head-Mounted-Displays wird die virtuelle Kommunikation die Angesicht-zu-Angesicht-Kommunikation in naher Zukunft präzise emulieren können. 90 Glossar Angesicht-zu-Angesicht-Kommunikation Enstammt dem englischen Begriff Face-to-Face Communication und bezeichnet die Situation in der sich zwei Menschen direkt gegenüberstehen und kommunizieren. 6 erweiterte Realität Augmented Reality bedeutet im deutschen erweiterte Realität. Begriff der für die Erweiterung von realer Welt durch synthetische Objekte beschreibt. Dabei wird zumeist ein Video von der Realität aufgenommen und in Echtzeit ein computergeneriertes Objekt in das Video reingerechnet. 11 erweiterte Virtualität Augmented Virtuality lässt sich erweiterte Virutalität übertsetzen. Der Begriff steht für die Erweiterung von Virtualität durch reale und physische Objekte. So ist es erweiterte Virutalität, wenn eine virtuelle Welt um einen Videostream der realen Welt erweitert wird. 11 Head-Mounted-Displays HMDs sind Helme oder Brillen mit integrierten Bildschirmen, die man sich auf den Kopf setzen kann. Wird auch als kopfgestützte Anzeigen übersetzt. 69 HSV-Farbraum Der HSV-Farbraum ist der Farbraum, bei dem die Farbe mit Hilfe des Farbtons (englisch hue), der Farbsättigung (saturation) und des Intensitätswertes (value) definiert. 77 Pixel Pixel stellen die kleinsten Bildeinheit in einem digitalen Bild dar. 27 Proxemik Proxemik untersucht und beschreibt die Signale von Individuen, die sie durch das Einnehmen einer bestimmten Distanz zueinander austauschen. 47 91 Glossar RGB-Format Es gibt viele verschiedene Formate, um Bilder mit mehreren Farben darzustellen. Das RGB-Format besteht aus den drei Farben Rot, Grün und Blau, welche zusammen gemischt werden. Ein anderes Beispiel ist das CMYK-Format, welches aus den Farben Cyan, Mangenta, Gelb und Schwarz besteht. 27 vermischte Realität kommt von dem englischen Begriff Mixed Reality. Bezeichnet den Abschnitt zwischen Realität und Virtualität. 11 Video-stream Der Begriff für Streaming Video und Streaming Audio und bezeichnet aus einem Rechnernetz empfangene und gleichzeitig wiedergegebene Audio- und Videodaten. Den Vorgang der Datenübertragung selbst nennt man Streaming, und gestreamte Bilder einer Videokamera nennt man Video-stream. 6 Virtualität-Realität-Kontinuum Taxonomie von Paul Milgram um Virtualtät und Realität, sowie deren Mischformen einzuordnen. 11 92 Literaturverzeichnis [BB94] Bentele, G. und K. Beck: Information-Kommunikation- Massenkommunikation: Grundbegriffe und Modelle der Publizistik-und Kommunikationswissenschaft. Medien und Journalismus, 1:15–50, 1994. [BB04] Bailenson, J. und J. Blascovich: Avatars. Encyclopedia of Human-Computer Interaction. Berkshire Publishing Group, Seiten 64–68, 2004. [BC04] Brown, E. und P. Cairns: A grounded investigation of game immersion. In: Conference on Human Factors in Computing Systems, Seiten 1297–1300. ACM New York, NY, USA, 2004. [BEA07] Bente, G., F. Eschenburg und L. Aelker: Effects of simulated gaze on social presence, person perception and personality attribution in avatar-mediated communication. In: Proceedings of the 10th Annual International Workshop on Presence, 2007. [Bec07] Beck, K.: Kommunikationswissenschaft. Uvk Verlags GmbH, 2007. [BH02] Biocca, F. und C. Harms: Defining and measuring social presence: Contribution to the networked minds theory and measure. Proceedings of PRESENCE, 2002, 2002. [Bla02] Blascovich, J.: Social influence within immersive virtual environments. The social life of avatars: Presence and interaction in shared virtual environments, Seiten 127–145, 2002. [BLB+ 02] Blascovich, J., J. Loomis, A.C. Beall, K.R. Swinth, C.L. Hoyt und J.N. Bailenson: Immersive virtual environment technology as a methodological tool for social psychology. Psychological Inquiry, 13(2):103–124, 2002. [BRB08] Bell, M.W. und S. Robbins-Bell: TOWARDS AN EXPANDED DEFINITION OF "VIRTUAL WORLDS". New Digital Media, 1:125, 2008. [BS79] Bergler, R. und U. Six: Psychologie des Fernsehens. Huber, 1979. 93 Literaturverzeichnis [Bur95] Burkart, R.: Kommunikationswissenschaft: Grundlagen und Problemfelder: Umrisse einer interdisziplinären Sozialwissenschaft. Böhlau, 1995. [BYMS06] Bailenson, J.N., N. Yee, D. Merget und R. Schroeder: The effect of behavioral realism and form realism of real-time avatar faces on verbal disclosure, nonverbal disclosure, emotion recognition, and copresence in dyadic interaction. Presence: Teleoperators and Virtual Environments, 15(4):372, 2006. [CM02] Comaniciu, D. und P. Meer: Mean shift: A robust approach toward feature space analysis. IEEE Transactions on pattern analysis and machine intelligence, 24(5):603–619, 2002. [CPB+ 94] Cassell, J., C. Pelachaud, N. Badler, M. Steedman, B. Achorn, T. Becket, B. Douville, S. Prevost und M. Stone: Animated conversation: rule-based generation of facial expression, gesture & spoken intonation for multiple conversational agents. In: Proceedings of the 21st annual conference on Computer graphics and interactive techniques, Seiten 413–420. ACM New York, NY, USA, 1994. [CSDSHSLN07] Castrillon Santana, M., O. Deniz Suarez, D. Hernandez Sosa und J. Lorenzo Navarro: Using Incremental Principal Component Analysis to Learn a Gender Classifier Automatically. In: 1st Spanish Workshop on Biometrics, Girona, Spain, June 2007. [DMZ95] Dyer, S., J. Martin und J. Zulauf: Motion capture white paper. Online, 1995. [DS02] Duval, T.S. und P.J. Silvia: Self-awareness, probability of improvement, and the self-serving bias. Journal of Personality and Social Psychology, 82(1):49–61, 2002. [EA44] Edgerton, F. und E. Arnold: The Bhagavad Gita. Harvard University Press, 1944. [fCTatUoSC10] Southern California, Institute for Creative Technologies at the University of: InterFaces - Virtual Humanes, Real Friends. Website, April 2010. [FSB75] Fenigstein, A., M.F. Scheier und A.H. Buss: Public and private selfconsciousness: Assessment and theory. Journal ol Consulting and Clinical Psychology, 43(4):522–527, 1975. [Fur99] Furniss, M.: Motion capture. In: MEDIA IN TRANSACTION CONFERENCE, Band 1, 1999. 94 Literaturverzeichnis [Gam10] GamersHell.com: Best-Selling Novels as MMOG-dtp Entertainment Announces Otherland. Website, April 2010. online erhältlich un- ter http://www.gamershell.com/companies/dtp_entertainment_ag/ 504534.html; besucht am 15.April 2010. [GMH04] Gerhard, M., D. Moore und D. Hobbs: Embodiment and copresence in collaborative interfaces. International journal of human-computer studies, 61(4):453–480, 2004. [Gra72] Graumann, C. F.: Interaktion und Kommunikation. Handbuch der Psychologie, Bd, 7(2):1109–1262, 1972. [GSC+ 07] Goesele, M., N. Snavely, B. Curless, H. Hoppe und S.M. Seitz: Multi-view stereo for community photo collections. In: Proceedings of the international conference on computer vision. Citeseer, 2007. [GZ08] Groh, R. und M. Zavesky: Mein Avatar und ich: Zur kameravermittelten Interaktion mit anthropomorphen 3D-Repräsentanten. In: Herczeg, M.; Kindmüller, M. (Hrsg.): Mensch und Computer 2008: Viel Mehr Interaktion, Seiten 187–196. Oldenburg Verlag, 2008. [HRH+ 05] Hauber, J., H. Regenbrecht, A. Hills, A. Cockburn und M. Billinghurst: Social Presence in two-and threedimensional Videoconferencing. In: Proceedings of 8th Annual International Workshop on Presence, London/UK, Seiten 189–198, 2005. [IH07] Innocent, T. und S. Haines: Nonverbal communication in multiplayer game worlds. In: Proceedings of the 4th Australasian conference on Interactive entertainment, Seiten 1–9. RMIT University, 2007. [Inc10] Inc., Linden Research: Second Life. Website, April 2010. online erhältlich unter http://secondlife.com/?v=1.0; besucht am 15.April 2010. [Jäc95] Jäckel, M.: Interaktion. Soziologische Anmerkungen zu einem Begriff. Rundfunk und Fernsehen, 43(4):463–476, 1995. [JCC+ 08] Jennett, C., A.L. Cox, P. Cairns, S. Dhoparee, A. Epps, T. Tijs und A. Walton: Measuring and defining the experience of immersion in games. International Journal of Human-Computer Studies, 66(9):641–661, 2008. [Jen09] Jensen, S.S.: AVATAR-BASED SENSE-MAKINGS AND COMMUNICATION PRACTICES IN THE METAVERSE–an empirical study of actors and 95 Literaturverzeichnis of their use of avatars as personal mediators in the virtual worlds of EverQuest and Second Life. Online worlds as media and communication format. MediaCulture, Special Issue, 2009. [JLF+ 09] Jones, A., M. Lang, G. Fyffe, X. Yu, J. Busch, I. McDowall, M. Bolas und P. Debevec: Achieving eye contact in a one-to-many 3D video teleconferencing system. In: ACM SIGGRAPH 2009 papers, Seite 64. ACM, 2009. [Joi01] Joinson, A.N.: Self-disclosure in computer-mediated communication: The role of self-awareness and visual anonymity. European Journal of Social Psychology, 31(2):177–192, 2001. [Kee97] Keegan, M.: A classification of MUDs. Journal of MUD Research, 2(2):12, 1997. [Koc02] Kocher, Mela: Autonome Avatare: Hybris virtueller Zeichen-Körper? Website, Oktober 2002. online erhältlich unter http://www.brown. edu/Research/dichtung-digital/2002/11/10-Kocher/index.htm; besucht am 13.Januar 2010. [Koe70] Koenig, O.: Kultur und Verhaltensforschung. Einfuhrung in die Kulturethologie. Munchen: Deutscher Taschenbuchverlag, 1970. [Kub94] Kubler, H. D.: Kommunikation und Massenkommunikation. Lit-Verl., 1994. [LH08] Livingstone, M. und D.H. Hubel: Vision and art: The biology of seeing. Abrams, 2008. [LK81] Lucas, B.D. und T. Kanade: An iterative image registration technique with an application to stereo vision. In: International joint conference on artificial intelligence, Band 3, Seite 3. Citeseer, 1981. [LLN98] Lee, J.K., J.L. Lentz und I.I. Novof: Computer controlled olfactory mixer and dispenser for use in multimedia computer applications, März 3 1998. US Patent 5,724,256. [Mac05] MacDorman, K.F.: Androids as an experimental apparatus: Why is there an uncanny valley and can we exploit it. In: CogSci-2005 Workshop: Toward Social Mechanisms of Android Science, Seiten 106–118, 2005. [Mal63] Maletzke, G.: Psychologie der Massenkommunikation: Theorie und Systematik. Verlag Hans Bredow-Institut, 1963. 96 Literaturverzeichnis [Mal98] Maletzke, G.: Kommunikationswissenschaft im Überblick: Grundlagen, Probleme, Perspektiven. VS Verlag, 1998. [Mar82] Marr, D.: Vision: A computational investigation into the human representation and processing of visual information. Henry Holt and Co., Inc. New York, NY, USA, 1982. [McS05] McShaffrey, M.: Game coding complete. Paraglyph Press, ISBN, 2005. [Mer77] Merten, K.: Kommunikation: Eine Begriffs-und Prozessanalyse. Westdeutscher Verl., 1977. [MK94] Milgram, P. und F. Kishino: A taxonomy of mixed reality visual displays. IEICE TRANSACTIONS on Information and Systems, 77(12):1321–1329, 1994. [Mor70] Mori, M.: The uncanny valley. Energy, 7(4):33–35, 1970. [MS94] Massie, T.H. und J.K. Salisbury: The phantom haptic interface: A device for probing virtual objects. In: Proceedings of the ASME Winter Annual Meeting, Symposium on Haptic Interfaces for Virtual Environment and Teleoperator Systems, Band 55, Seiten 295–300, 1994. [MW93] McQuail, D. und S. Windahl: Communication models for the study of mass communications. Longman Publishing Group, 1993. [Nau99] Naugle, L.M.: Motion capture: Re-collecting the dance. Proc. ICKL99, Seiten 208–213, 1999. [Nec99] Nechvatal, J.: Immersive Ideals - Critical Distances. Doktorarbeit, University of Wales College, 1999. A study of the affinity between artistic ideologies based in virtual reality and previous immersive idioms. [NNHM01] Nakamoto, T., Y. Nakahira, H. Hiramatsu und T. Moriizumi: Odor recorder using active odor sensing system. Sensors & Actuators: B. Chemical, 76(13):465–469, 2001. [Oli07] Oliden, Eduardo: John Locke - LOST. Website, März 2007. online erhältlich unter http://sir3dmind.cgsociety.org/gallery/473076/; besucht am 15.April 2010. [Ott97] Ottensmeyer, M. Salisbury, J.K.: Hot and cold running VR: adding thermal stimuli to the haptic experience. Proceedings of the PHANToM Users Group, 1997. 97 Literaturverzeichnis [OYK+ 03] Ogi, T., T. Yamada, Y. Kurita, Y. Hattori und M. Hirose: Usage of video avatar technology for immersive communication. In: Proceedings of First International Workshop on Language Understanding and Agents for Real World Interaction, Seiten 24–31. Citeseer, 2003. [Pro72] Pross, H.: Medienforschung: Film, Funk, Presse, Fernsehen. Habel, 1972. [RGA+ 09] Rushforth, M., S. Gandhe, R. Artstein, A. Roque, S. Ali, N. Whitman und D. Traum: Varying personality in spoken dialogue with a virtual human. In: Intelligent Virtual Agents, Seiten 541–542. Springer, 2009. [Rum05] Rumbke, Leif: Raumrepräsentation im klassischen Computerspiel. Technischer Bericht, Kunsthochschule für Medien, Köln, 2005. [Rum06] Rumbke, Leif: Kinetische Semiotik im klassischen Computerspiel. Diplomarbeit im Fachbereich Mediengestaltung, Kunsthochschule für Medien, Köln, Januar 2006. [SB03] Sidenbladh, H. und M.J. Black: Learning the statistics of people in images and video. International Journal of Computer Vision, 54(1):183–209, 2003. [Sch76] Scheier, M.F.: Self-awareness, self-consciousness, and angry aggression. Journal of Personality, 44(4):627–644, 1976. [Sch90] Schreiber, E.: Repetitorium Kommunikationswissenschaft. Aufl. München: Ölschläger, 3., überarb:369, 1990. [Sch99] Schenk, M.: Kommunikationstheorien. Noelle-Neumann et al., 1:171–186, 1999. [SE00] Salem, B. und N. Earle: Designing a non-verbal language for expressive avatars. In: Proceedings of the third international conference on Collaborative virtual environments, Seiten 93–101. ACM, 2000. [SSS06] Snavely, N., S.M. Seitz und R. Szeliski: Photo tourism: exploring photo collections in 3D. In: ACM SIGGRAPH 2006 Papers, Seite 846. ACM, 2006. [Ste00] Stephenson, N.: Snow crash. Spectra, 2000. [SUS94] Slater, M., M. Usoh und A. Steed: Depth of presence in virtual environments. Presence-Teleoperators and Virtual Environments, 3(2):130–144, 1994. 98 Literaturverzeichnis [SW97] Slater, M. und S. Wilbur: A Framework for Immersive Virtual Environments(FIVE)- Speculations on the role of presence in virtual environments. Presence: Teleoperators and Virtual Environments, 6(6):603–616, 1997. [Sze10] Szeliski, Richard: Computer Vision: Algorithms and Applications. Draft vom 10.01.2010 von http://research.microsoft.com/ szeliski/, Januar 2010. [SZS06] Sivic, J., C.L. Zitnick und R. Szeliski: Finding people in repeated shots of the same scene. In: British Machine Vision Conference, Seiten 909–918. Citeseer, 2006. [Tan02] Tanenbaum, Andrew S.: Computer Networks. Prentice Hall, 4., überarbeitete Auflage Auflage, August 2002. [VC98] Vilhjalmsson, H.H. und J. Cassell: Bodychat: Autonomous communicative behaviors in avatars. In: Proceedings of the second international conference on Autonomous agents, Seite 276. ACM, 1998. [VJ02] Viola, P. und M. Jones: Robust real-time object detection. International Journal of Computer Vision, 57(2):137–154, 2002. [VJP07] Vasalou, A., A.N. Joinson und J. Pitt: Constructing my online self: avatars that increase self-focused attention. In: Proceedings of the SIGCHI conference on Human factors in computing systems, Seite 448. ACM, 2007. [Whi76] White, J.E.: A high-level framework for network-based resource sharing. In: Proceedings of the June 7-10, 1976, national computer conference and exposition, Seiten 561–570. ACM, 1976. [WW47] Weber, M. und J. Winckelmann: Wirtschaft und gesellschaft: Grundriss der verstehenden Soziologie. Mohr, 1947. [Wys07] Wysocki, Piotr Fox: The Artist himself. Website, März 2007. online erhältlich unter http://fox.cgsociety.org/gallery/472843/; besucht am 15.April 2010. [Yee06] Yee, N.: The psychology of massively multi-user online role-playing games: Motivations, emotional investment, relationships and problematic usage. Avatars at Work and Play, Seiten 187–207, 2006. 99 Literaturverzeichnis [YF06] Yao, M.Z. und A.J. Flanagin: A self-awareness approach to computermediated communication. Computers in Human Behavior, 22(3):518–544, 2006. [ZJ98] Zahorik, P. und R.L. Jenison: Presence as being-in-the-world. Presence, 7(1):78–89, 1998. 100 Abbildungsverzeichnis 2.1 Virtualität-Realität-Kontinuum nach [MK94] . . . . . . . . . . . . . . . . . . 11 2.2 Beispiele für das Virtualität-Realität-Kontinuum . . . . . . . . . . . . . . . . 12 2.3 Hybrides Avatar-Agent Modell nach [GMH04] . . . . . . . . . . . . . . . . . 15 2.4 Client-Server-Modell 2.5 Architektur OpenSim Server aufbauend auf ([McS05], S. 23) . . . . . . . . . 17 2.6 Architektur RealXtend Client aufbauend auf ([McS05], S. 23) . . . . . . . . 18 2.7 Sender-Empfänger-Modell nach ([Bec07] S.26) . . . . . . . . . . . . . . . . 20 2.8 Vergleich von Auge und Kamera . . . . . . . . . . . . . . . . . . . . . . . . 27 2.9 Aufbau eines Bildes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1 Vektoren der Avatarposition nach [GZ08] . . . . . . . . . . . . . . . . . . . 32 3.2 Beispiele für realitätsnahe 3D Modelle . . . . . . . . . . . . . . . . . . . . . 33 3.3 Polygonnetz eines weiblichen Kopfes . . . . . . . . . . . . . . . . . . . . . . 33 3.4 Diffuse-Map und Bump-Map eines Avatars . . . . . . . . . . . . . . . . . . . 34 3.5 Skelett eines Avatars und dessen Auswirkung auf das Polygonnetz . . . . . . 36 3.6 Das Uncanny Valley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.7 Motion-Capture Anlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.8 Das Emily Project von Image Metrics . . . . . . . . . . . . . . . . . . . . . 41 3.9 Performance Capturing für den Film Avatar . . . . . . . . . . . . . . . . . . 42 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.10 deutsches MUD Silberland . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.11 Verschiedene Viseme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.12 Nonverbale Pictogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.13 Erweiterungen für Videokonferenzen . . . . . . . . . . . . . . . . . . . . . . 48 3.14 Interaktionstypen aus [GZ08] . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.15 Animation-Interaktion Zuordnung von Salem . . . . . . . . . . . . . . . . . 50 4.1 Bildqualität und Präsenz nach Milgram ([MK94], S. 9) . . . . . . . . . . . . 56 4.2 Anzeigen und Präsenz nach Milgram ([MK94], S. 11) . . . . . . . . . . . . . 57 4.3 Theorie der Networked Minds nach [BH02] . . . . . . . . . . . . . . . . . . 58 4.4 Vergleich sozialer Präsenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1 Verwendete Merkmale im Viola-Jones-Algorithmus . . . . . . . . . . . . . . 76 5.2 Beispiel Gesichtserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 101 Abbildungsverzeichnis 102 5.3 Cam-Shift-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.4 Shi-Tomasi-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.5 Merkmalsverfolgung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.6 Avatar mit Gesichtstextur des Autors 5.7 Motion-Capture-Aufnahmen an der HTW Dresden . . . . . . . . . . . . . . 84 . . . . . . . . . . . . . . . . . . . . . 84 Tabellenverzeichnis 5.1 Vergleich Konzept und Analyse . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2 Interpretation der Eingabehinweise . . . . . . . . . . . . . . . . . . . . . . . 83 103