Nonverbale Kommunikation zwischen Avataren in virtuellen Welten

Transcrição

Nonverbale Kommunikation zwischen Avataren in virtuellen Welten
Diplomarbeit
von
Thomas Gründer
geboren am 15. August 1981 in Berlin
zur Erlangung des akademischen Grades
Diplom Medieninformatiker
Verantwortlicher Hochschullehrer:
Prof. Dr.-Ing. habil. Rainer Groh
Betreuer:
Dipl.-Medieninf. Marius Brade
TU-Dresden Professur Mediengestaltung
Dipl.-Wirt.-Inf. Moritz Biehl
T-Systems Multimedia Solutions GmbH
Fakultät Informatik
Institut für Software- und Multimediatechnik
Professur Mediengestaltung
Eidesstattliche Erklärung
Hiermit versichere ich, die vorliegende Arbeit zum Thema
„ Nonverbale Kommunikation von Avataren in virtuellen Welten“
selbstständig und unter ausschließlicher Verwendung der angegebenen Literatur und
Hilfsmittel erstellt zu haben.
Dresden, 30.04.2010
Thomas Gründer
Danksagung
Die vorliegende Diplomarbeit entstand als Forschungs- und Entwicklungsarbeit am Lehrstuhl
Mediengestaltung der TU Dresden und der T-Systems Multimedia Solutions GmbH.
Ich möchte mich an dieser Stelle bei all denen bedanken, die mich bei der Anfertigung meiner
Diplomarbeit unterstützt haben.
Ein besonderer Dank geht an meine Betreuer Prof. Dr.-Ing. habil. Rainer Groh, Moritz Biel
und Marius Brade für die Möglichkeit, diese Diplomarbeit in Zusammenarbeit mit der TSystems Multimedia Solutions GmbH schreiben zu dürfen. Vielen Dank auch für die stets
engagierte Betreuung und die vielen hilfreichen Ratschläge.
Ebenfalls möchte ich mich bei den Mitarbeitern und Diplomstudenten des Lehrstuhls für
Mediengestaltung für die tolle Arbeitsatmosphäre und die vielen konstruktiven Diskussionen
bedanken. Naütrlich auch ein herzliches Dankeschön an alle Korrekturleser.
Ganz besonders möchte ich meiner Familie danken, die mich während des ganzen Studiums
so tatkräftig unterstützt hat und mir jederzeit mit Zuspruch und Ansporn beiseite stand.
Inhaltsverzeichnis
1
2
3
4
5
6
Einleitung
5
1.1
Zielstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Grundlagen und Begriffe
9
2.1
Virtuelle Welten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2
Kommunikationswissenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3
Computer Vision
2.4
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Analyse virtueller Kommunikation
31
3.1
Avatare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2
Verbale und visuelle Kommunikation . . . . . . . . . . . . . . . . . . . . . . 41
3.3
Nonverbale Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4
Interaktionstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5
Bewertung virtueller Kommunikation
53
4.1
Kommunikationskanäle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2
Erlebnistiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3
Bewertungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4
Konzept zur Übertragung von Kommunikation in die Virtualität
69
5.1
Beschreibung des Konzeptes . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2
Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3
Fazit
87
6.1
6.2
Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1
Glossar
91
Literaturverzeichnis
92
Abbildungsverzeichnis
101
Tabellenverzeichnis
103
3
1 Einleitung
Seit der Entwicklung der ersten Rasterisierungsverfahren in den 70er Jahren des letzten Jahrhunderts träumen Menschen davon, die reale Welt im Computer simulieren zu können. Seit
jeher beschäftigt es Autoren von Science-Fiction-Literatur, wie solch eine Welt aussehen
könnte, welche philosophischen und alltäglichen Probleme entstehen und wie die menschliche
Gesellschaft verändert werden würde. Werke wie Neuromancer, die Matrix, Snowcrash oder
Otherland sind nur die Bekanntesten. In den Geschichten werden die Menschen durch dreidimensionale Abbildungen repräsentiert, welche ihnen gleichen oder völlig anders aussehen.
Der Unterschied zwischen realer und computergenerierter Welt verschwimmt in einem Maße,
dass die Protagonisten oftmals erst erlernen müssen, das Virtuelle und das Reale auseinander zu halten. Es gibt dort eine ideale Schnittstelle zwischen Mensch und Computer, welche
oftmals sogar als direkte Schnittstelle zum Gehirn der Protagonisten erdacht ist.
Heutzutage gibt es zwar einen rasanten Fortschritt in der Computertechnologie, jedoch existieren solche Virtuelle Welten mit komplexen Schnittstellen noch nicht. Das hält den Menschen jedoch nicht davon ab, sich den Ideen schrittweise zu nähern. So versucht Second Life1
von Phillip Rosedale die Virtuelle Welt aus dem Roman Snowcrash ([Ste00]) umzusetzen, und
der Spieleentwickler RealU entwickelt an einem Spiel zu den Otherland Romanen ([Gam10]).
Die Schnittstelle zwischen Mensch und Computer liegt in heutigen Virtuellen Welten im Konzept des Avatars. Diese dreidimensionalen Figuren werden in der Virtuellen Welt dargestellt
und lassen sich durch den Nutzer steuern. Neben Verbesserungen in Grafik, Visualisierung
und Sound unterstützt auch die Weiterentwicklung von Avataren das Eintauchen der Nutzer
in die Virtuelle Welt. Neue Gestaltungsmöglichkeiten lassen eine individuellere Erscheinung
zu und realitätsnahe Animationen erhöhen die Akzeptanz der künstlichen Figuren.
Mit der Annäherung der Virtuellen Welten an die Realität wird die Genauigkeit von Interaktion
und Kommunikation immer stärker betont. Die Stellvertreter in der Virtuellen Welt sind jedoch
noch nicht in der Lage, die komplexe zwischenmenschliche Kommunikation abzubilden.
1
http://secondlife.com/
5
1 Einleitung
1.1 Zielstellung
Diese Arbeit beschäftigt sich mit der zwischenmenschlichen Kommunikation in der Virtualität.
Der Gold-Standard in der Kommunikation ist die Angesicht-zu-Angesicht-Kommunikation
und gilt als das zu emulierende Optimum. In der Science-Fiction-Literatur geschieht dies
durch perfekte Schnittstellen, welche in der heutigen Welt noch nicht vorhanden sind. In
der vorliegenden Diplomarbeit wird der aktuelle Stand der virtuellen Kommunikation verdeutlicht. Parallel dazu wird untersucht, welche Kriterien für eine optimale Kommunikation erfüllt
werden müssen. Es wird hinterfragt welche Zustände im menschlichen Verstand benötigt
werden, um den Erfolg virtueller Kommunikation auf das Level der Angesicht-zu-AngesichtKommunikation zu heben. Vor allem der nonverbale Anteil an der Kommunikation wird näher
beleuchtet.
Da nonverbale Hinweise zum großen Teil über das Auge wahrgenommen werden, wird das
computertechnologische Pendant, die Videokamera benutzt, um das Porträtvideo eines Menschen auf Hinweise zur Kommunikation zu untersuchen. Theoretisch ermöglicht der Videostream, grundlegende Gestiken und Zustände eines Nutzers zu erkennen. Diese Informationen
müssen aus dem Video-stream extrahiert und aufbereitet werden. Es sind komplexe Algorithmen der Computer Vision nötig, um Gesichter, Gesichtsmerkmale, Gesten, sowie Stimmungen
zu erkennen und über die Zeit zu verfolgen. Das Konzept dieser Arbeit untersucht, wie die
Informationen zur menschlichen Kommunikation extrahiert und interpretiert werden können.
Aufbauend auf den erhaltenen Informationen wird diese Arbeit Vorschläge für die Abbildung
von menschlicher Körpersprache auf virtuelle Avatare erbringen und dieses Konzept prototypisch umsetzen.
1.2 Aufbau der Arbeit
Die Diplomarbeit ist in sieben Kapitel unterteilt. Nach der Einleitung folgen im Kapitel 2 die
Grundlagen und Begriffe, die für das Verständnis der Arbeit notwendig sind. Die Grundlagen
unterteilen sich in die Begriffe der Virtuellen Welten, den Grundlagen zur Kommunikation
und den Kommunikationswissenschaften sowie der Computer Vision.
Anschliessend werden in Kapitel 3.3 verwandte Arbeiten zum Thema virtuelle Kommunikation
vorgestellt. Von Relevanz sind Studien zur Verbesserung virtueller Kommunikation und zur
Übertragung nonverbaler Hinweise in die Virtualität. Damit sind die Grundlagen der Thematik
behandelt und es wird zur Recherche übergegangen.
Hierfür werden in Kapitel 3 die aktuellen Formen der Kommunikation in Virtuellen Welten
untersucht. Das Konzept des Avatars und der Mediation von Kommunikation wird genauso
6
1.2 Aufbau der Arbeit
aufgezeigt wie die aktuell verwendeten Schnittstellen zwischen Mensch und Computer.
In Kapitel 4 wird dann auf den Grundlagen und der Analyse aufgebaut. Es wird untersucht, wie
virtuelle Kommunikation bewertet und verglichen werden kann. Dazu werden grundlegende
technologische Kriterien aufgestellt. Aufbauend auf diesen Kriterien können dann höhere
Konzepte der Immersion und Erlebnistiefe bewertet werden, um letztendlich auf den Erfolg
der virtuellen Kommunikation zu schließen.
Im Anschluss an die Erarbeitung der Einflussfaktoren auf den Erfolg virtueller Kommunikation wird in Kapitel 5 ein Konzept zur Verbesserung der virtuellen Kommunikation erstellt.
Dazu wird das Konzept erst theoretisch vorgestellt und dann die prototypische Umsetzung
beschrieben.
Abschliessend werden die Ergebnisse in Kapitel 6 zusammengefasst. Weiterhin wird das Konzept diskutiert und ein Ausblick auf weitere Forschungsarbeiten gegeben.
7
2 Grundlagen und Begriffe
Die Arbeit beschäftigt sich mit der Kommunikation zwischen Avataren in virtuellen Welten.
In diesem Satz sind drei Begriffe genannt, die eine Fülle von Bedeutungsinhalten besitzen.
Aufgrund dessen werden in dem ersten Kapitel zunächst die Grundlagen zum Verständnis
und der Nachvollziehbarkeit der Diplomarbeit gelegt. Hierzu gehören die Begriffe der Virtuellen Welten, der Kommunikationswissenschaften und der Computer Vision und es werden
Zusammenhänge zwischen den Begriffen herausgestellt. Desweiteren wird der theoretische
Rahmen beschrieben, welcher in den folgenden Kapiteln weiter vertieft wird.
2.1 Virtuelle Welten
Eine Schlüsselstellung in dieser Arbeit nimmt der Begriff der Virtuellen Welten ein. Nechvatal definiert Virtuelle Welten als „synthetische, immersive Kreationen“ ([Nec99], S. 29).
Hier fallen die wichtigen Begriffe synthetisch und immersiv, welche die Haupteigenschaften
Virtueller Welten darstellen. Desweiteren existiert die Definition „Virtueller Welten“ von Bell
und Robbins-Bell (vgl. [BRB08], S. 127):
Virtual Worlds are a synchronous persistent network of people represented by
avatars, faciliated by networked computers.1
Jeder dieser Terme wird dabei von Bell und Robbins-Bell spezifisch verstanden und wie folgt
in [BRB08] definiert:
• Synchronität bezieht sich hier auf den zeitlichen Aspekt einer Kommunikation. Die
Teilnehmer müssen zur gleichen Zeit anwesend sein, um synchron zu kommunizieren.
In einer Virtuellen Welt kann über Chat, Voice Chat, Group Chats und teilweise sogar schon Video Chats synchron kommuniziert werden. Hierbei liegt die Betonung der
Synchronität jedoch nicht auf der Ausschließlichkeit. Auch asynchrone Kommunikati1
auf deutsch: Virtuelle Welten sind ein synchrones, persistentes Netzwerk von Menschen, welche durch
Avatare repräsentiert werden, und werden von vernetzten Computern erstellt.
9
on ist durchaus erwünscht. Jedoch ist die synchrone Kommunikation unabdingbar für
Virtuelle Welten.
• Persistenz bezieht sich auf Beständigkeit in der Zeit. Ein Teilnehmer muss ständig dazu
in der Lage sein, auf die Virtuelle Welt zugreifen zu können.
• Netzwerk von Menschen ist als soziales Netzwerk zu begreifen. Soziale Netzwerke sind
eine Form von Gemeinschaft, eine lose Selbstorganisation von Menschen im gleichen
Raum oder auch ein Bekanntschaftsgeflecht.
• Avatar ist der Stellvertreter eines Menschen in der Virtuellen Welt und wird im Abschnitt 2.1.1 vertieft betrachtet.
• Vernetzte Computer betonen die Synthetik und grenzen die Virtuellen Welten von
realen Gesellschaftsspielen ab. Es existieren zum Beispiel sogenannte „Pen-&-PaperRollenspiele“ 2 , in welchen sich eine Gruppe von Menschen fiktive Welten erschaffen
und dort als Helden verschiedene Abenteuer bestehen können.
Diese Definition ist ein aktuelles Abbild und wird ständig erweitert. Dies geht auf den permanenten Fortschritt der zugrunde liegenden Technologien zurück. Bell und Robbins-Bell
vernachlässigen in ihrer Definition allerdings die Begriffe der Virtualität beziehungsweise jene
der Synthetik und der Immersion, welche von Nechvatal so hervorgehoben wurden. So lässt
sich ein ständig erreichbarer Video-Chat wie Chatroulette3 auch als Virtuelle Welt klassifizieren, obwohl ausschließlich reale Objekte übertragen werden. Um die Begriffe Realität und
Virtualität unterscheiden zu können wird das Virtualität-Realität-Kontinuum eingeführt. Auf
den Begriff der Immersion soll daran anschließend eingegangen werden.
Das Virtualität-Realität-Kontinuum
Der Begriff der Virtualität ist von Paul Milgram in Abgrenzung zur Realität benutzt worden.
Dabei steht Realität für Physisches, Wirkendes und Virtualität für Nicht-physisches, aber
ebenso Wirkendes. Milgram bestimmt die Menge der realen Objekte durch alle Objekte,
welche eine physische und objektive Existenz besitzen ([MK94], S. 6). Im Gegensatz dazu
sind virtuelle Objekte als Objekte postuliert, welche als Essenz oder als Effekt aber nicht
physisch existieren ([MK94], S. 7). Diese beiden Begriffe werden hier aus dem Philosophischen
übertragen. Verständlicher ist die Unterscheidung von realen Objekten und virtuellen Objekten
durch die Eigenschaft der Materialität. Reale Objekte besitzen Stofflichkeit als Eigenschaft,
virtuelle Objekte haben keine Materialität.
2
3
vgl. http://de.wikipedia.org/wiki/Pen-%26-Paper-Rollenspiel
Chatroulette ist ein Internet-Video-Portal auf http://chatroulette.com/
10
Milgram versteht die beiden Begriffe Virtualität und Realität allerdings nicht als gegensätzlich,
sondern fügt sie zu einem Kontinuum zusammen. Dabei stellt er sie gegenüber und visualisiert
am Virtualität-Realität-Kontinuum den Begriff vermischte Realität. Diesen unterteilt er noch
in erweiterte Realität und erweiterte Virtualität. Das Virtualität-Realität-Kontinuum ist in
Abbildung 2.1 dargestellt.
Auf der linken Seite der Abbildung 2.1 weist das Virtualität-Realität-Kontinuum allein reale
Objekte auf, was alle in der realen Welt beobachtbaren Objekte meint. Hier gelten alle
Objekte, welche direkt durch eine Person wahrgenommen oder über eine Art Anzeige, sichtbar
gemacht werden. Es zählen demnach auch Sterne als reale Objekte, da sie durch ein Teleskop
visualisiert werden. Genauso werden Knochen den realen Objekten zugewiesen, da sie durch
Ultraschall oder Röntgenstrahlen sichtbar gemacht werden können. Auf der rechten Seite des
Kontinuums werden dagegen allein virtuelle Objekte abgebildet. Hierzu zählen synthetische
Objekte, welche durch Computergrafik und Simulationen generiert werden.
Realität
Vermischte Realität
erweiterte Realität
erweiterte Virtualität
Virtualität
Abbildung 2.1: Virtualität-Realität-Kontinuum nach [MK94]
Zwischen diesen Extremen zerfließt die Grenze dieser beiden Prinzipien und der resultierende
Bereich wird von Milgram mit Vermischter Realität betitelt. In dem Bereich der vermischten
Realität wird gleichzeitig die reale und die Virtuelle Welt in einer Anzeige, zum Beispiel
einem Monitor, abgebildet. Es existieren aber unterschiedliche Nuancen. Einmal existiert
der Begriff erweiterte Realität, welcher für den Bereich von der Realität bis zur Mitte der
Abbildung 2.1 benutzt wird. Er definiert eine Abbildung der realen Welt, welche durch virtuelle
Objekte erweitert wird. Als Beispiel dienen visuelle Anzeigen, die man auf dem Kopf trägt.
Hier werden virtuelle Objekte in Echtzeit auf eine von Videokameras aufgezeichnete reale
Welt projiziert. Der Bereich von der Mitte bis zur Virtualität wird als erweiterte Virtualität
bezeichnet und sagt aus, dass reale Objekte, zum Beispiel durch eine Videokamera, in eine
Virtuelle Welt übertragen werden können. Beispiele für die einzelnen Begriffe des VirtualitätRealität-Kontinuum sind in Abbildung 2.2 aufgezeigt. Dabei wurde das Bild für die Erweiterte
Realität mit dem Metaio Live-Viewer aufgenommen4 , und das Bild zur Virtuellen Realiät ist
aus dem Film „Knightmare“ 5 .
4
5
http://sw.ar-live.de/
http://en.wikipedia.org/wiki/Knightmare
11
(a) Realität
(b) Erweiterte Realität
(c) Erweiterte Virtualität
(d) Virtuelle Realität
Abbildung 2.2: Beispiele für das Virtualität-Realität-Kontinuum
Durch das Virtualität-Realität-Kontinuum wird klar, dass die Definition von Bell und RobbinsBell um Virtualität erweitert werden muss. Virtualität allein reicht nicht aus, da Virtuelle
Welten, wie „Blue Mars“ 6 oder „Second Life“ [Inc10], bereits Video-Chat und Videointegration
ermöglichen. Dadurch werden reale Objekte in die virtuelle Realität eingeführt und nach
dem Virtualität-Realität-Kontinuum müssen Virtuelle Welten in den Bereich der erweiterten
Virtualität eingeordnet werden.
Immersion
Neben der Definition von Bell und Robbins-Bell sowie des Virtualität-Realität-Kontinuums,
wird in der Fachliteratur ein weiterer Begriff im Zusammenhang mit Virtuellen Welten benutzt. In dem Paper [MK94] führt Milgram die Eigenschaften Immersion und Präsenz in die
Taxonomie „mixing real and virtual worlds“ ([MK94], S. 12) ein. Slater und Wilbur stellen in
[SW97] einen Framework für „immersive virtual Environments“ auf und Blascovich benutzt
„immersive virtual Environments“ in [BLB+ 02] als Werkzeug für die Sozialpsychologie.
6
vgl. http://www.bluemars.com/
12
Brown und Cairns haben sich in [BC04] ausführlicher mit der Immersion in Computerspielen
beschäftigt. Dabei benutzen sie den Begriff Immersion als Erfahrung zu einem bestimmten
Zeitpunkt und unterteilen sie in drei unterschiedliche Grade.
Der erste Grad der Immersion ist die Beschäftigung (Engagement) mit einem Spiel, bei dem
der Spieler Aufmerksamkeit, Zeit und Übung investieren muss, um das Spiel kontrollieren zu
können. Darauf folgt die Vertiefung (Engrossment) in das Spiel, wobei der Spieler emotional
gebunden wird und die Spielkontrollen aus der Aufmerksamkeit verschwinden. Der Spieler
ist jetzt weniger seiner Umgebung und seiner Selbst bewusst. Brown und Cairns definieren
den Status so: „A Zen-like state where your hands just seem to know what to do, and your
mind just seems to carry on with the story“ 7 ([BC04], S. 3). Von der Vertiefung her kann der
Spieler noch weiter in das Spiel einbezogen werden. Über die Identifikation mit dem Spiel und
die Einbettung in die Atmosphäre des Spiels ist es möglich, in den Zustand der vollständigen
Immersion (total Immersion) zu kommen. Brown und Cairns erklären diesen Zustand mit:
„When you stop thinking about the fact that you’re playing a computer game and you’re just
in a computer.“ 8 ([BC04], S. 4).
Jennett et al. fassen diese Indizien in [JCC+ 08] zusammen und betonen besonders drei Eigenschaften der Immersion:
• das Fehlen von Zeitgefühl,
• der Verlust der Aufmerksamkeit gegenüber der realen Welt,
• Einbindung und das Gefühl, eine Aufgabe zu haben und etwas zu erreichen.
Es handelt sich bei Immersion also um eine absorbierende und einprägsame Erfahrung. Diese
Erfahrung ist in Virtuellen Welten gewünscht, jedoch kann Immersion als subjektive Erfahrung
kein Muss-Kriterium für eine Virtuelle Welt sein. Jennett et al. grenzen daher die Begriffe
Fließen, Präsenz und kognitive Absorption in [JCC+ 08] von Immersion ab und bezeichnen sie
allgemein als Erlebnistiefe (Engaging Experience).
Der Begriff Virtuelle Welt wird in dieser Arbeit nach der Definition von Bell und RobbinsBell mit der Erweiterung verbunden, dass sich Virtuelle Welten der erweiterten Virtualität
zuordnen lassen. Virtuelle Welten zeichnen sich durch eine hohe Erlebnistiefe aus, welche
oft als Immersion fehlinterpretiert wird. Die Erlebnistiefe zu verstärken ist das Ziel neuer
Anzeigen und neuer computergrafischer Simulationen (vgl. [MK94]). Es existieren jedoch
weitere Maßnahmen zur Verbesserung des Anwendererlebnisses, wie zum Beispiel Avatare.
7
in deutsch: Ein Zen-artiger Status in dem die Hände genau zu wissen scheinen, was sie machen müssen und
der Geist sich komplett auf die Geschichte konzentrieren kann.
8
in deutsch: Wenn man aufhört über den Fakt nachzudenken, dass man ein Computerspiel spielt und sich
vollständig in der Computerwelt befindet.
13
2.1.1 Avatar
In der Definition von Virtuellen Welten in der vorliegenden Arbeit wird die Repräsentation
von Menschen durch sogenannte Avatare als immanent deklariert. Das Wort „Avatar“ kann
bis zum Sanskrit und der Hindu-Religion verfolgt werden. Er bedeutet dort „Herabkunft“,
meist von einem göttlichen Wesen. Dieses Wesen gleitet in den menschlichen Bereich herab
und interagiert mit dessen Bewohnern. Der Avatar schaut also nicht nur durch ein Fenster
in diese Welt, sondern kann in diesem Bereich auch in seiner Präsenz erfasst werden und auf
die Welt einwirken (vgl. [EA44]).
Der Begriff „Avatar“ wurde nach Bell und Robins-Bell (vgl. [BRB08], S. 131), durch vier
Quellen im Bereich der Virtuellen Welten bekannt: Einmal durch das Spiel „Avatar“, welches
1979 von Bruce Maggs, Andrew Shapira und David Sides entwickelt wurde; dann durch das
Spiel „Ultima IV“ von 1985, wo der Hauptcharakter den Namen Avatar trägt; weiterhin durch
die Virtuelle Welt „Habitat“, die 1985 die Bewohner als Avatare betitelte und letztendlich
der Roman „Snowcrash“ von Neal Stephenson [Ste00], nach dessen Vorbild die Virtuelle
Welt Second Life gestaltet ist. An anderer Stelle wird der Avatar von Groh und Zavesky als
„dynamisches Messinstrument (Vitruv-Mann), Stellvertreter (Agent und Probehandelnder)
und multiplizierbarer Platzhalter in einer Virtuellen Welt“ begriffen. „Wichtig sind also seine
Dimensionen als Ort im Raum und als Moment (Zustand) in der Zeit.“ ([GZ08], S. 189).
Aufgrund dieser Beispiele kann der Begriff des Avatars wie folgt definiert werden:
Alle digitalen Repräsentationen, seien sie grafisch oder textuell, haben sie eine
Bezeichnung oder einen Namen, die Fähigkeit Aktionen zu vollziehen, sowie eine Präsenz und sind sie weiterhin von Menschen in Echzeit kontrolliert, können
Avatar genannt werden (vgl. [BRB08], S. 132).9
In der Literatur wird der Begriff Avatar auch für die Repräsentation „intelligenter Lebensformen“ [Koc02] benutzt. Um Verwirrungen vorzubeugen wird der Avatar in dieser Arbeit als
wahrnehmbare digitale Repräsentation verstanden, dessen Verhalten durch einen Menschen
in Echtzeit gesteuert wird. Ein Agent hingegen wird als mathematische oder computergesteuerte Entität interpretiert, die vordefinierte Ziele verfolgt. Ein körperlicher Agent ist dabei
ein Agent, dessen Aktionen durch eine wahrnehmbare digitale Repräsentation abgebildet wird
(vgl. [BB04], S. 3). Somit sind Avatare als von Menschen gesteuert definiert, wie in Abbildung
2.3 aufgezeigt. Zusätzlich besteht die Anforderung, dass die Steuerung von Avataren in Echtzeit abläuft, um Überschneidungen mit dem Begriff des körperlichen Agenten zu vermeiden.
9
vom Author aus dem englischen übersetzt
14
Benutzer
kontrolliert direkt
Virtuelle Welt
interagiert
Inhalt
Benutzer
kommuniziert
Avatar
Agent
Virtuelle Welt
Co-Avatars
interagiert
Inhalt
de�iniert Ziele
kontrolliert Verhalten
kommuniziert
Avatar
Co-Avatars
Abbildung 2.3: Hybrides Avatar-Agent Modell nach [GMH04]
Dessen ungeachtet gibt es noch offene Fragen bei der Unterscheidung zwischen Agent und
Avatar. Avatare allein durch Menschen zu steuern ist bei dem aktuellen Stand der Technik
allein schon aufgrund der fehlenden Eingabemodalitäten nicht möglich. Um den technischen
Hintergrund von Avataren und deren Steuerung zu betrachten, ist es notwendig, die technischen Grundlagen von Virtuellen Welten eingehender zu betrachten.
2.1.2 Technische Grundlagen
Virtuelle Welten basieren laut der Definition aus Abschnitt 2.1 auf vernetzten Computern.
Computer müssen Informationen austauschen, um Virtuelle Welten darzustellen. Die Computer der Teilnehmer benötigen eine Vielzahl an Informationen, zum Beispiel an welchem
Ort sich Teilnehmer in der Virtualität befinden. Unter anderem sind Aussehen, Aktion und
Zustand von Teilnehmern und deren Avataren weitere Informationen, welche zwischen den
Computern der Anwender ausgetauscht werden müssen. Für diesen Informationsaustausch
ist deren Verknüpfung essentiell. Computer können auf verschiedene Arten vernetzt sein.
Eine Übersicht über Computernetzwerke ist in dem Standardwerk „Computernetzwerke“ von
Tanenbaum ([Tan02]) aufgestellt.
Um die Architektur von Virtuellen Welten zu verstehen, ist jedoch weniger ein Verständnis
der Vernetzung von Computern bedeutsam, als ein Verständnis der Aufgabenteilung zwischen
den vernetzten Computern. Dazu wird das Client-Server-Modell benutzt, welches in den siebziger Jahren von Xerox Parc10 eingeführt wurde. Dabei fordert ein als Client bezeichneter
10
Der erste Kommunikationsstandard wurde in [Whi76] definiert.
15
Computer Informationen von einem als Server bezeichneten Computer an. Ein anschauliches
Beispiel für solch eine Architektur ist das Internet selbst. Dort werden Webseiten mit ihren
Diensten auf verschiedene Server aufgespielt. Die Anwender, beziehungsweise der Rechner,
der auf solche Dienste zugreift, wird als Client bezeichnet. Der grundlegende Aufbau ist in
Abbildung 2.4 dargestellt. Für Virtuelle Welten bedeutet das Client-Server-Modell, dass der
Server Informationen zum Zustand der Welt besitzt, welcher ständig von den Clients abgerufen und angezeigt wird. Gleichzeitig fordert der Client auch Änderungen an dem Zustand
der Virtuellen Welt an, wie zum Beispiel eine Änderung der Position seines Avatars.
Client Rechner
Client Browser
Anfrage
Netzwerk
Server Rechner
Server Dienst
Antwort
Abbildung 2.4: Client-Server-Modell
Die Server haben also die Aufgabe, den Zustand der Virtuellen Welt zu berechnen, während
die Clients die Aufgabe haben, diesen Zustand zu visualisieren und Änderungen am Zustand
zu beauftragen. Als Beispiel für eine Virtuelle Welt wird der Server OpenSim11 mit dem Client
RealXtend12 untersucht. Die wesentlichen Module sind in Abbildung 2.5 für den Server und
in Abbildung 2.6 für den Client festgehalten.
Der OpenSim Server besteht im Wesentlichen aus zwei Ebenen. Die eine Ebene ist die Anwendungsebene und stellt die grundlegenden Funktionen der Software dar. Es werden die
Hardwareressourcen verwaltet und die Schnittstelle zum Betriebssystem bereit gestellt. Hierzu gehört auch die Kontrolle des Lebenszyklus des Servers. Die zweite Ebene ist für die Logik
des Servers zuständig und berechnet den eigentlichen Zustand der Virtuellen Welt. Hierzu gehört die Positionen der Avatare und der virtuellen Objekte, die Teilnehmer und deren Inventar,
sowie die physikalischen Gesetze, die in der Virtuellen Welt herrschen und die Verwaltung der
Skriptsprache, mit welcher Teilnehmer Eigenschaften und Zustände der Welt ändern können.
Weiterhin gehören zum Zustand die Ereignisse der Virtuellen Welt, welche die Änderung von
einem Zustand zum nächsten Zustand bewirken. Diese Ereignisse basieren auf dem Prinzip
der Kausalität. Wenn eine Aktion ausgelöst wird oder ein Ereignis geschieht, gibt es darauf
eine Reaktion der Umwelt. Diese Ereignisse können aus der Welt selbst oder von Teilnehmern
in der Welt ausgelöst werden. Der Client mit dem Namen „RealXtend“ ist anders aufgebaut.
11
12
http://opensimulator.org/
http://www.realxtend.org/
16
Abbildung 2.5: Architektur OpenSim Server aufbauend auf ([McS05], S. 23)
Auf der Anwendungsebene besitzt er die gleichen Aufgaben wie der OpenSim Server, um
die Software an das Betriebssystem anzuschliessen und die grundlegenden Funktionen, wie
Ressourcenmanagement, sowie den Lebenszyklus bereit zu stellen. Die nachfolgende Ebene
ist beim Client die Darstellungsebene. Hier wird der Zustand, welcher vom Server über die
Netzwerkkomponente angefordert wird, für die einzelnen Ausgabegeräte vorbereitet. Dazu
gehört die visuelle Darstellung der Virtuellen Welt über eine Grafikengine sowie die auditive
Darstellung über eine Audioengine. Weiterhin wird die Eingabe des Menschen verarbeitet und
als Ereignis an den OpenSim Server gesendet. Hierzu zählt die Eingabe über Tastatur, Maus,
Mikrofon, Webkamera und weiteres. Über diese Ereignisse kann der Zustand der Virtuellen
Welt verändert werden. Der dritte Teil ist die Logikberechnung des Clients. Darunter fällt die
Kommunikation zwischen den Clients, sei es als Text-, Audio- oder Video-Kommunikation.
Die Kommunikation wird separat gehandhabt, da es sich anbietet auf vorhandene Kommunikationsstrukturen wie „Skype“ 13 oder „Google Video Chat“ 14 aufzubauen.
Für die vorliegende Diplomarbeit besonders von Bedeutung ist das System zur Charakteranimation. Dieses System ist dafür zuständig, Avatare und Figuren mit Leben zu erfüllen, sie
zu animieren. Dies wird in Kapitel 3 vertieft.
Laut aktuellem Stand der Technik basieren Virtuelle Welten hauptsächlich auf einer ereignisorientierten Server-Client Architektur, wie an dem Beispiel der Virtuellen Welt OpenSim
gezeigt werden konnte. Der Server übernimmt die Aufgabe, den Zustand der Virtuellen Welt
zu berechnen und reagiert auf Ereignisse. Diese Ereignisse können über den Client gesendet werden, welcher sich um die Darstellung des Zustandes kümmert, oder aber direkt aus
den Modulen des Servers selbst, zum Beispiel über die Physikbehandlung oder über Skripte.
Weiterhin animiert der Client die Avatare und wertet die Eingaben der Anwender aus.
Dieser grobe Überblick genügt, um die grundlegende Arbeitsweise einer Virtuellen Welt zu
13
14
siehe www.skype.com
siehe http://www.google.com/chat/video
17
Abbildung 2.6: Architektur RealXtend Client aufbauend auf ([McS05], S. 23)
verstehen. Es ergibt sich hieraus, dass der Client die Animationen der Charaktere und Avatare abspielt. Die Animationen müssen jedem Client zur Verfügung stehen, da der Zustand
des Charakters, also welche Animation abgespielt wird, vom Server gesendet wird. Auf dem
Server sind eine bestimmte Menge an Animationen definiert, welche dann je nach Zustand
der Charaktere vom Client abgespielt werden. Hieraus ergeben sich bereits erste technische
Einschränkungen, auf welche im Kapitel 3 tiefer eingegangen wird. Aus den technischen Einschränkungen in Virtuellen Welten ergeben sich zwangsweise auch kommunikative Einschränkungen. Um diese ausfindig zu machen, ist es notwendig, Kommunikation im Allgemeinen
und zwischenmenschliche Kommunikation im Speziellen zu erläutern.
2.2 Kommunikationswissenschaften
Der Begriff Kommunikation ist, nach Virtuellen Welten und Avatar, der dritte große Begriff
des Titels dieser Diplomarbeit und stammt aus der Kommunikationswissenschaft. Die Kommunikationswissenschaft beschäftigt sich mit den Bedingungen, Funktionen, Strukturen und
Wirkungsmöglichkeiten von Medien und Kommunikation. Sie kann theoretische Modelle der
zwischenmenschlichen Kommunikation anbieten sowie analytische Werkzeuge beitragen, um
die zwischenmenschliche Kommunikation in Virtuellen Welten einzuordnen. Dies ist für die
Aufgabenstellung der Diplomarbeit von besonderer Relevanz. Deshalb muss auf die Grundlagen der Kommunikation detailiert eingegangen werden. In der Kommunikationswissenschaft
sind folgende Kommunikationsformen Untersuchungsgegenstand (vgl. [Bec07], S. 12):
• Humankommunikation ist als ausschließliche Kommunikation unter Menschen definiert.
18
Ihr besonderes Kennzeichen ist die Verfügbarkeit eines sprachlichen Kanals über und
neben anderen nonverbalen Kommunikationskanälen.
• Massenkommunikation ist Beck zufolge eine besondere Form der Humankommunikation, deren Kennzeichen unter anderem darin besteht, dass sie auf technische Medien
angewiesen ist, in aller Regel auf einer 1:n Kommunikation basiert und sich an die
Öffentlichkeit richtet.
• Computervermittelte Kommunikation ist ein aus der Multimedia-Kommunikation hergeleiteter Begriff. Gemeint sind neue Kommunikationsformen, die durch das Verschmelzen
von Telekommunikation, Computerisierung und herkömmlichen elektronischen Massenmedien möglich geworden sind.
2.2.1 Begriff Kommunikation
Kommunikation ist ein komplexer interaktiver Prozess, der einerseits zwischenmenschlich und
andererseits medienvermittelt erfolgen kann. Der Münchener Kommunikationswissenschaftler Heinz Pürer skizziert anhand zentraler Grundbegriffe die Komplexität dieses Begriffes mit
Blick auf dessen gesellschaftliche Relevanz. Unter Verwendung von Wissenschaftsdisziplinen
wie Soziologie, Psychologie und Linguistik, wird den Begriffen Kommunikation, Massenkommunikation und elektronisch mediatisierte Kommunikation eine Bedeutung zugeschrieben,
die sich sowohl an der Alltagssprache als auch an der wissenschaftlichen Fachsprache anlehnt. Kommunikation meint demnach Informationsübertragung und Bedeutungszuweisung
sowie aber auch zwischenmenschliche Kontaktaufnahme und kann als eine wichtige Kategorie sozialen Handelns bezeichnet werden. Die Kommunikation meint auf der einen Seite alle
Prozesse der Informationsübertragung und bezieht technische, biologische, psychische, physische und soziale Informationsvermittlungssysteme mit ein. Auf der anderen Seite versteht
man unter Kommunikation einen Vorgang der Verständigung und der Bedeutungsvermittlung zwischen Lebewesen (vgl. [Mal63], S. 18). Kommunikation zwischen Menschen stellt
schliesslich eine Form sozialen Handelns dar, das mit subjektivem Sinn verbunden sowie auf
das Denken, Fühlen und Handeln anderer Menschen bezogen ist.
Kommunikation ist verbale oder nonverbale Interaktion, die durch Zeichen und Symbole vermittelt wird. Die Kommunikationskanäle, die der menschlichen Sinneswahrnehmungen weitestgehend entsprechen, sind dabei variabel einsetzbar. Elektronisch mediatisierte Kommunikation verbindet mittels technischem Equipment herkömmliche Kommunikationsformen mit
neuen Kommunikationsmöglichkeiten, wie zum Beispiel E-Mail, Chat oder Virtuelle Welten.
Es handelt sich dabei um die Zusammenführung verschiedener Informationstechnologien, wie
Computer, Telekommunikation, Massenmedien und Unterhaltungsindustrie, welche Multimedia erst möglich machen. Dadurch entstehen neue Kommunikationsräume, deren wichtigstes
19
Merkmal es ist, dass für das kommunizierende Individuum der Mensch und der Computer
tendenziell vermischt werden. Bei der Interaktion tritt die Maschine als Vermittler oder als
Kommunikationspartner in neuartiger Weise in Erscheinung.
Im vereinfachten klassischen Sinne besteht Kommunikation aus mindestens vier Elementen, einem Sender (Kommunikator), einem Kommunikationsinhalt (Aussage, Mitteilung, Botschaft), einem Kanal, über den der Inhalt vermittelt wird (Medium), sowie einem Empfänger
(Rezipient) (siehe Abbildung 2.7). Der Kommunikationsvorgang läuft derart ab, dass der
Sender eine Information verschlüsselt (encodiert), sprachlich an den Kommunikationspartner
übermittelt und der Empfänger die übermittelte Botschaft erfasst und entschlüsselt (decodiert). Dieser Prozess ist in zahlreichen Kommunikationsmodellen dargestellt (vgl. [MW93],
(vgl. [BB94], S. 21-25)).
Signal
kodieren
störanfälliger Informationskanal
Sender
Interpretieren
Zeichenvorrat
Signal
entkodieren
Empfänger
Interpretieren
Abbildung 2.7: Sender-Empfänger-Modell nach ([Bec07] S.26)
Beim Gespräch zwischen zwei oder auch mehr Personen läuft dieser Prozess in aller Regel
wechselseitig ab, also im ständigen Tausch der Rollen von Kommunikator und Rezipient. Die
Wechselseitigkeit und weitere Charakteristika der Kommunikation sind wie folgt definiert:
• Wechselseitigkeit ist in aller Regel eines der Merkmale von Angesicht-zu-AngesichtKommunikation (vgl. [Mer77], S. 75). „Der Status der beiden Kommunikationspartner
und/oder die soziale Strukturierung der Kommunikationssituation“ können jedoch zu
einem „kommunikativen Gefälle“ zwischen Sender und Empfänger führen, „sodass der
Kommunikationsprozess bzw. sein dialogischer Charakter nicht zwingend symmetrisch
strukturiert sein muss“ ([Kub94], S. 38).
• Intentionalität ist die Absichtshaftigkeit des Senders und Zielgerichtetheit der Botschaft
an den Empfänger. Intentionalität kann auch gegeben sein, wenn der angestrebte Empfänger möglicherweise nicht reagiert (vgl. [Mer77], S. 77f.) oder etwas anderes versteht
als der Sender.
• Anwesenheit bezeichnet die gegenseitige Wahrnehmbarkeit der Kommunikationspart-
20
ner in der direkten Interaktion. Diese gegenseitige Wahrnehmbarkeit ist nicht nur im
persönlichen Gespräch zwischen zwei Personen gegeben, sondern beispielsweise auch
beim Telefonieren und eingeschränkt in Virtuellen Welten (vgl. [Mer77], S. 79ff.). In
dieser „technisch vermittelten“ Form der Kommunikation nehmen die beiden Gesprächspartner einander wegen der eingeschränkten Zahl der benutzten Kommunikationskanäle
weiterhin auch anders wahr als in der Angesicht-zu-Angesicht-Kommunikation.
• Sprachlichkeit ist trotz der vielfältigen nonverbalen Kommunikation ein wesentliches
Merkmal der Kommunikation (vgl. [Mer77], S. 82). Sprache ist das leistungsfähigste
Kommunikationsinstrument und spielt für die Verständigung zwischen zwei oder mehreren Kommunikationspartnern eine wichtige Rolle.
• Wirkung vereint sämtliche Verhaltensweisen und Erlebnisprozesse, die beim Kommunizieren ablaufen und erfahrbar sowie beobachtbar sind (vgl. [Mer77], S. 84ff.).
• Reflexivität, also die Rückwirkung von Kommunikation, sieht Merten als das wichtigste
Merkmal an. Reflexivität bezieht sich auf die beiden Kommunikationspartner und ist
so als Rückwirkung von Prozessen in der Kommunikation auf sich selbst zu begreifen.
Merten unterscheidet zwischen Reflexivität in der Zeitdimension, in der Sachdimension
sowie in der Sozialdimension (vgl. [Mer77], S. 86ff.). Dabei bedeutet Reflexivität in
ihrer zeitlichen Dimension die Rückwirkung der Folgen von Kommunikation auf den
Kommunikationsprozess selbst. Reflexivität in der sachlichen Dimension meint, „dass
Kommunikation jeweils mit dem Kanal bzw. Code operieren kann, der dem sachlichen
Anliegen am angemessensten ist. Kommunikation rekurriert mithin auf kulturelle und
bewusstseinsmäßige Vorleistungen, kann adäquat Informationen auswählen, aufeinander
beziehen, vorantreiben, Traditionen bilden und an Sinnstrukturen anknüpfen.“ ([Kub94],
S. 18). Reflexivität in der sozialen Dimension bedeutet, dass „Kommunikation Individuen verbindet, Sozialität stiftet, kognitive Leistungen wie Wahrnehmen, Erwarten und
Handeln verlangt bzw. erzeugt und damit letztlich menschliche Identität konstituiert“
([Kub94], S. 18). Gemeint ist, dass Kommunikation zeitlich, sachlich und sozial sich
immer auf bereits Vorhergehendes oder Vorhandenes bezieht.
Kommunikation ist durch ein Mindestmaß an Verständigung, an Gemeinsamkeiten der Gedanken und der Absichten zwischen Sender und Empfänger gekennzeichnet. Sie dient der
Verständigung, dem Austausch und dem Teilhaben an dem, worüber kommuniziert wird. Verständigung liegt dann vor, „wenn der Rezipient eine ihm mitgeteilte Aussage so versteht, wie
sie vom Kommunikator gemeint ist“ ([Bur95], S. 75). Dazu wird ein gemeinsamer, übereinstimmender Zeichenvorrat benötigt. Über einen in großen Teilen übereinstimmenden Zeichenvorrat verfügen Kommunikationspartner, die nicht nur die gleiche Sprache sprechen, sondern
auch ähnliche oder gleiche Interessen sowie ähnliche oder gleiche Erfahrungen, Anschauungen
und Werthaltungen haben (vgl. [Mer77], S. 47-49).
21
Kommunikation und Interaktion
Die Idee, wonach soziales Handeln „mit subjektivem Sinn verbunden“ sowie „auf das Handeln
anderer Menschen bezogen und daran in seinem Ablauf orientiert ist“, geht auf den Soziologen
Max Weber zurück ([WW47], S. 1). Wenn sich zwei oder mehr Personen „in ihrem gegenseitigen Verhalten aneinander orientieren und auch gegenseitig wahrnehmen können“ ([Jäc95],
S. 463), wird dies als Interaktion bezeichnet. Interaktion ist demnach durch „Prozesse der
Wechselbeziehung bzw. Wechselwirkung[...]“ gekennzeichnet. Es soll in Anlehnung an Burkart
unter sozialer Interaktion ein wechselseitiges Geschehen zwischen zwei oder mehr Personen
verstanden werden, „welches mit einer Kontaktaufnahme beginnt und zu (Re-)Aktionen der
im Kontakt stehenden Lebewesen führt“ ([Bur95], S. 30). Burkart weist hier ganz stark auf
das Kausalitätsprinzip hin, auf welches bereits in Abschnitt 2.1.2 bei der ereignisorientierten
Server-Client Architektur von Virtuellen Welten hingewiesen wurde. Kommunikation kann somit als eine „spezifische Form der sozialen Interaktion“ verstanden werden ([Gra72], S. 1110),
zumal zwischenmenschliche Kommunikation sich in aller Regel auch durch Wechselseitigkeit
auszeichnet, wie bereits im Abschnitt „Grundlagen der Kommunikation“ aufgezeigt wurde.
Die Begriffe Kommunikation und Interaktion werden gelegentlich auch synonym verwendet.
Das ist nicht uneingeschränkt zulässig, denn sie stehen zueinander in Beziehung. Mit Kommunikation, der Wortbedeutung nach eher Verständigung, sind in erster Linie inhaltliche
Bedeutungsprozesse gemeint (vgl. [Mal98], S. 43). Interaktion dagegen meint den Charakter
und Handlungsablauf sozialer Beziehungen (vgl. [Jäc95], S. 463). Durch Interaktion werden die „Formen und der Ablauf kommunikativer Handlungen angezeigt, d.h. Kommunikation
und Interaktion bedingen sich gegenseitig“ ([Sch99], S. 173). Wenn Interaktion folglich als
Synonym für soziales Handeln steht, kann Kommunikation als Interaktion mit Zeichen und
Symbolen definiert werden.
Um eine Definition für zwischenmenschliche Kommunikation von Angesicht zu Angesicht
zu finden, die sowohl soziale Beziehungen als auch das Merkmal der Verständigung vereint,
kann man Kommunikation als verbales und nonverbales Miteinander-in-Beziehung-Treten von
Menschen zum Austausch von Informationen bezeichnen.
2.2.2 Kommunikationskanäle
Nicht nur in der zwischenmenschlichen Kommunikation wird über mehrere Kanäle kommuniziert. Kommunikationskanäle sind die menschlichen Sinnesmodalitäten, mit deren Hilfe die
Kommunikation und die Kommunikationsspartner wahrgenommen werden können. Dabei wird
zwischen dem auditiven, dem visuellen, dem taktilen, dem olfaktorischen, dem thermalen und
dem gustatorischen Kanal unterschieden.
22
• Über den auditiven Kanal wird gesprochene Sprache bzw. Information wahrgenommen, wobei paraverbale Komponenten wie Stimmvariation, Sprechgeschwindigkeit und
Sprechrhythmus sowie extralinguistische Elemente wie Lachen, Weinen, Husten, Rülpsen und Gähnen zugleich wahrgenommen werden.
• Der visuelle Kanal vermittelt die meisten nonverbalen Informationen. Dazu gehören:
Mimik (Gesichtsausdruck), Gestik, Körperhaltung, raumbezogenes Verhalten (wie interpersonale Distanz, Annäherungs- und Vermeidungstendenzen) sowie äußere Attribute (Körpergröße, Kleidung, Frisur). Eine wichtige Rolle in der visuellen Kommunikation
spielt der Blickkontakt, wie Bergler und Six unter Bezugnahme auf Koenig festhalten:
„Das Auge sieht nicht nur, es schaut auch an und wird umgekehrt selbst angeschaut,
es ist Sender und Empfänger zur gleichen Zeit.“ ([Koe70], S. 183). Daher hat das Auge eine wichtige Intimfunktion für zwischenmenschliche Kommunikation (vgl. [BS79],
S. 28ff.). Der visuelle Kommunikationskanal ist im Hinblick auf die Verarbeitungsgeschwindigkeit und die Relevanz für den Menschen den anderen Kanälen weit überlegen
und dementsprechend auch von besonderer Relevanz für das vorliegende Thema.
• Über den taktilen Kanal wird Körperberührung wahrgenommen. Dazu zählt unter anderem der Händedruck bei Begrüßungen, Verabschiedungen, Beglückwünschungen und
Vertragsvereinbarungen ebenso wie Körperberührungen in der Intimkommunikation.
• Eng verbunden mit dem taktilen ist der thermale Kanal, über den auch die Körperwärme
des Kommunikationspartners wahrgenommen werden kann.
• Der olfaktorische Kanal vermittelt Gerüche, die von Kommunikationspartnern ausgehen
und für das Gelingen oder Misslingen von Kommunikation von Bedeutung sein können.
Beispielsweise können unangenehme Körpergerüche oder auch angenehme Pheromone
zur Kommunikation beitragen.
• Weiterhin gibt es den gustatorischen Kanal, der Geschmacksempfindungen vermittelt.
Solche Geschmacksempfindungen können beispielsweise von einem guten Essen ausgehen, das für eine Kommunikation positiv wäre.
Die Menschen benutzen ihre Kommunikationskanäle nicht einzeln. Zwischenmenschliche Kommunikation benutzt zumeist nicht nur einen, sondern „gleichzeitig mehrere dieser Kanäle“
([BB94], S. 40) und „ je mehr Kanäle in der Kommunikation jeweils zusammenwirken, desto
höher ist der Grad der Präzision und der Reflexivität der Kommunikation“ ([Sch90], S. 132).
Als besonderes Beispiel für Multimodalität oder auch Mehrkanalität nennt Schreiber den
Kuss, „bei dem im [...] optimalen Fall der taktile (Berührung), gustatorische (Geschmacksempfindungen), olfaktorische (Riechen von Körpergeruch), thermale (Wärmeempfindungen),
optische (sektoraler Gesichtsausdruck) und der akustische beteiligt sind“ ([Sch90], S. 132).
23
Die Aussagen von Bentele und Schreiber lassen hier bereits erste Rückschlüsse auf den Einfluss von Kommunikation auf den Grad von Präsenz in Virtuellen Welten zu. Präsenz meint
laut Abschnitt 2.1 die gesetzesgemäße Wahrnehmung von Aktion und Reaktion in Virtuellen Welten. Je mehr Kommunikationskanäle benutzt werden, umso höher ist der Grad der
Reflexivität und der Präzision der Kommunikation. Äquivalent gilt dies für den Grad der Präzision durch den erhöhten Grad an Realismus. Wenn aber nur der visuelle und auditive Kanal
untersucht werden, ist es auch dort schon möglich, große Distinktheit der Qualitäten von
Kommunikation zu finden.
2.2.3 Verbale und nonverbale Kommunikation
Für Bergler und Six ([BS79], S. 35) ist Kommunikation „immer die integrierte Einheit verbaler und nonverbaler Kommunikation“. In diesem Zusammenhang verweisen sie auf unterschiedliche Vermittlungsleistungen verbaler und nonverbaler Kommunikation. So vermittelt
verbale Kommunikation in erster Linie Tatsachen, Meinungen, Probleme und Sachverhalte.
Sie wird nicht ausschließlich, aber primär kognitiv erfasst. Die nonverbale Kommunikation
stellt oft erst die eigentliche emotionale Beziehung zum Angesprochenen her. Sie wird stark
gefühlsbezogen wahrgenommen. Von nonverbaler Kommunikation gehen folglich wichtige
Informationsübertragungen aus ([BS79], S. 33). Nonverbale Kommunikation
• reguliert unmittelbar soziale Kontakte: weckt Sympathie (und damit erhöhte Kontaktbereitschaft) oder Antipathie;
• bereitet den Zuhörer auf kommende verbale Information vor;
• hält das Interesse des Zuhörers wach: weckt Aufmerksamkeit und Bereitschaft zur
weiteren Informationsaufnahme und Kommunikation;
• ist die glaubwürdigere Information im Falle auftretender Diskrepanzen zwischen verbaler
und nonverbaler Information;
• unterstützt die verbale Kommunikation;
• ersetzt und ergänzt verbale Kommunikation.
Zwischenmenschliche Kommunikation von Angesicht zu Angesicht bedient sich in der Regel mehrerer Kommunikationskanäle. „Nicht isolierte, abstrakte Worte und Sätze werden
wirksam, sondern die verbalen Elemente werden immer von bestimmten Menschen, mit einem charakteristischen Äußeren, einem spezifischen Attraktivitätswert, in einer spezifischen
stimmlichen Artikulation, Stimmlage, mit einer spezifischen Mimik, Gestik usw. vorgetragen.[...]. Diesem nonverbalen Verhalten [...] kommt im Sinne von sozialen Techniken zentrale
24
Bedeutung für die psychologische Wirksamkeit der eigentlichen Sachinformation zu“ ([BS79],
S. 35).
Im Unterschied zur Kommunikation von Angesicht zu Angesicht ist technisch vermittelte
Kommunikation oder computervermittelte Kommunikation von der Zahl der benutzten Kanäle
und Sinne betrachtet eine eingeschränkte Kommunikation. Deshalb wird beim Lesen der visuelle Kanal beansprucht, beim Radio Hören der auditive Kanal, beim Fernsehen sowie teilweise
in der computervermittelten Kommunikation visueller und auditiver Kanal gleichzeitig. In Telekommunikation, Massenkommunikation und computervermittelter Kommunikation gibt es
bislang keine Berührungen, keine Wärme- oder Geschmacksempfindungen und auch keine
Gerüche. Allerdings drängt die Forschung darauf, Berührungs- sowie Geruchskommunikation
computervermittelt zu ermöglichen (vgl. [NNHM01] und [LLN98]).
Menschliche Kommunikation definiert sich also durch eine Vielfalt immaterieller wie materieller Vermittlungsformen und -möglichkeiten. Von Harry Pross stammt der 1972 unternommene Versuch, die mediale Vielfalt zu differenzieren. Er unterscheidet zwischen primären,
sekundären und tertiären Medien ([Pro72], S. 10ff.).
• Primäre Medien sind demzufolge die Medien des „menschlichen Elementarkontaktes“.
Dazu gehören die Sprache sowie nichtsprachliche Vermittlungsinstanzen wie Mimik,
Gestik, Körperhaltung und Blickkontakt. All diesen Medien ist gemeinsam, dass kein
Gerät zwischen die Kommunikationspartner geschaltet ist „und die Sinne der Menschen
zur Produktion, zum Transport und zum Konsum der Botschaft ausreichen“([Pro72],
S. 145).
• Sekundäre Medien sind die Medien, welche auf der Seite des Senders technische Geräte erfordern, nicht aber beim Empfänger zur Aufnahme der Mitteilung. Gemeint sind
Rauchzeichen, Feuer- und Flaggensignale sowie alle jene menschlichen Mitteilungen, die
Schrift, Druck oder eine anderen Form von materieller Speicherung und Übertragung
benötigen.
• Mit tertiären Medien sind diejenigen Kommunikationsmittel gemeint, bei denen sowohl auf der Seite des Senders sowie auf der Seite des Empfängers ein technisches
Mittel erforderlich ist. Dazu gehören der gesamte Bereich der Telekommunikation sowie die elektronischen Massenmedien wie Radio, Fernsehen, Film, Schallplatte, MusikKassette, CD, Videotechniken, Computer und Datenträger unterschiedlichster Art.
Kommunikation von Angesicht zu Angesicht bedient sich also der hier dargelegten Kategorien nach den primären Medien. Ihre wichtigsten Kanäle sind verbale und nonverbale Vermittlungsformen. Kommunikation ist erfolgreich, wenn folgende drei Bedingungen erfüllt sind:
wenn die zu vermittelnden Gedanken, Absichten oder Bedeutungen des „immateriellen Bewusstseinsgehaltes“ eines Kommunikators in ein kommunizierbares verbales und nonverbales
25
Zeichensystem umgewandelt werden können, wenn sich die Codes bzw. Zeichen und Chiffren
in „physikalische Signale“ transformieren lassen und von den Sinnesorganen des Rezipienten
wahrgenommen werden, oder wenn der Rezipient die empfangenen Zeichen deuten, decodieren und dechiffrieren sowie durch Interpretation die vermittelten Inhalte erschließen kann
(vgl. [Mer77], S. 46).
Je stärker sich die tertiären Kommunikationsmittel der Realität annähern und je mehr Kommunikationskanäle in die computervermittelte Kommunikation Einzug hält, desto erfolgreicher wird die computervermittelte Kommunikation die Angesicht-zu-Angesicht-Kommunikation
emulieren. Da ihr die meisten Kommunikationskanäle zur Verfügung stehen, ist auch der Informationsgehalt am größten. Daraus resultiert eine höhere Qualität der Kommunikation.
Diese Art der Kommunikation zu emulieren, sollte demnach Aufgabe von Virtuellen Welten
sein. Nicht nur der Qualität der Kommunikation wegen, sondern auch um den Grad des Anwendererlebnisses in der Virtuellen Welt zu erhöhen. Damit dies aber möglich wird, ist es
erforderlich, noch ein weiteres Fachgebiet zu untersuchen. Das maschinelle Sehen, die Computer Vision, hift weitere Kommunikationskänäle zu erschliessen und vor allem die nonverbale
Kommunikation in die computervermittelte Kommunikation mit einzubeziehen.
2.3 Computer Vision
Computer Vision wird ins deutsche als maschinelles Sehen übersetzt. Aus dem Begriff ergibt
sich, dass es sich um die Analyse von Lichtwellen handelt und vom menschlichen Sehen
abgeleitet wird. Um die Lichtwellen aufzufangen, bedarf es der Apparatur „Kamera“, welche
dem menschlichen Auge nachempfunden ist. Der Aufbau der Kamera ist in Abbildung 2.8(b)
abgebildet und dem Auge gegenüberstellt. Sie besteht aus den Hauptkomponenten Linse,
Blende und Sensor. Das Licht fällt durch die Linse ein, wird dort gebündelt und durch die
Blende geleitet. Daraufhin wird es durch eine zweite Linse auf den Sensor fokusiert.
26
2.3 Computer Vision
Iris
Retina
Linse
Sehnerv
(a) Das Auge
Linse
Blende
Sensor
(b) Die Kamera
Abbildung 2.8: Vergleich von Auge und Kamera
Die Sensoren der Kamera messen die wellenlängenabhängige Intensität des durch die Blende
einfallenden Lichtes und digitalisieren das Gemessene in Werte zwischen 0 und 255. Pro Pixel
gibt es drei Sensoren, welche unterschiedliche spektrale Empfindlichkeiten besitzen, jeweils
für die Wellenlängenbereiche Rot (650-750 nm), Grün (490-575 nm) und Blau (490-575
nm). Ein digitales Bild wird aus Pixeln aufgebaut und je nach Format des Bildes entstehen
unterschiedlich viele Werte pro Pixelpunkt. In einem Schwarz-Weiß Bild gibt es beispielsweise
nur einen Grauwert pro Pixelpunkt, während in einem Bild des RGB-Formats drei Werte pro
Pixelpunkte zugewiesen werden. Die Werte der Pixel werden dann auf einem Ausgabemedium,
wie Drucker oder Bildschirm, wieder angezeigt (siehe Abbildung 2.9 für das RGB-Format).
In der Computergrafik werden Informationen aus Form und Aussehen, welche vorher definiert
werden, zu einem solchen Bild entwickelt. Dieser Vorgang nennt sich rendern15 . Die Computer
Vision versucht genau das Gegenteil. Hier geht es darum, aus Bildern Form und Aussehen
abzuleiten.
15
Bedeutung: Berechnung eines Bildes aus Rohdaten
27
Abbildung 2.9: Aufbau eines Bildes
Menschen erkennen die dreidimensionale Struktur der Welt mit großer Leichtigkeit. So fällt
es einfach, die Form und das Aussehen einer Blume zu erfassen und die Blume jederzeit vom
Hintergrund zu unterscheiden. Wenn der Mensch auf ein Gruppenfoto schaut, fällt es ihm
leicht die Menschen im Bild zu zählen, ihnen Namen zu geben und selbst die Emotionen
aus ihren Gesichtszügen zu erraten. Wahrnehmungspsychologen haben Jahrzehnte damit
verbracht zu verstehen, wie das menschliche visuelle System funktioniert. Auch wenn optische
Illusionen das Verständnis des Systems vorran gebracht haben, ist eine komplette Erlärung
der menschlichen visuellen Wahrnehmung noch unerreicht (vgl. [Mar82] und [LH08]).
Forscher im Bereich der Computer Vision haben parallel mathematische Techniken entwickelt
um die dreidimensionale Form und das Aussehen von Objekten aus Bildern zu rekonstruieren.
Es existieren heutzutage zuverlässige Techniken, 3D-Modelle aus einer Menge von Tausenden,
sich teilweise überlappenden Fotos, zu generieren ([SSS06]). Ab einer bestimmten Menge von
Bildern eines Objektes ist es möglich, dichte 3D-Oberflächen-Modelle mit Stereo-Matching
([GSC+ 07]) zu erstellen. Dank der Forschung kann die Position eines Menschen in Bewegung
([SB03]) und vor einem komplexen Hintergrund erkannt werden. Mit mäßigem Erfolg ist es
auch schon möglich, die Namen von Personen auf einem Foto, aus einer Kombination von
Gesicht, Kleidung und Haar, zu erkennen ([SZS06]). Doch trotz all dieser Fortschritte ist
der Wunsch nach einem Computer, der Bilder interpretieren kann, noch in weiter Ferne
(vgl. [Sze10], S. 3).
Im Bereich der Computer Vision wird versucht, die Welt aus einem oder mehreren Bildern
zu rekonstruieren, so zum Beispiel Eigenschaften wie Form, Lichtverhältnisse und Farbverteilungen. Es ist erstaunlich, dass Menschen und Tiere dazu mühelos in der Lage sind, während
Computeralgorithmen fehleränfällig sind und oftmals das Ziel nicht erreichen. Dies liegt vor
allem an dem Problem, dass nicht vorhandene Informationen rekonstruiert werden müssen und
dadurch mit komplexen mathematischen Problemen verbunden sind (vgl. [Sze10], S. 3).
Die Computer Vision wird in dieser Arbeit dazu verwendet, Eingaben des Menschen zu analysieren und zu interpretieren. Wie dargestellt ist es eine mathematische Disziplin, welche
28
2.4 Zusammenfassung
gerade erst seit vier Jahrzehnten existiert und im Vergleich zu anderen Wissenschaften in
den Kinderschuhen steckt. Trotzdem ist ihre Anwendung zur Anreicherung von Kommunikation in Virtuellen Welten bereits unverzichtbar.
2.4 Zusammenfassung
In den Grundlagen der Diplomarbeit konnten die wichtigen Begriffe „Virtuelle Welt“, „Avatare“ sowie „Kommunikation“ und deren Zusammenhang mit der nonverbalen Kommunikation
erklärt werden. Virtuelle Welten sind ein synchrones, persistentes Netzwerk von Menschen,
welche durch Avatare repräsentiert werden. Generiert und dargestellt werden sie von vernetzten Computern. Objekte der Virtuellen Welt besitzen damit keine Stofflichkeit. Sie sind
virtuell und synthetisch generiert. Durch die Integrierung von Videos und anderen Medien
müssen Virtuelle Welten nach Milgram allerdings der erweiterten Virtualität zugeordnet werden, da hier auch reale, also stoffliche, Objekte abgebildet werden.
In Virtuellen Welten wird versucht, das Anwendungserlebnis zu verbessern, auch wenn diese Konzepte oft mit Immersion verwechselt werden. Dazu wird unter anderem untersucht,
wie Avatare Anwendung und Kommunikation verbessern können. Avatare sind digitale Repräsentationen, welche von Menschen in Echtzeit kontrolliert werden. Sie sind der virtuelle
Stellvertreter und Teil der visuellen Darstellung, welche vom Client-Computer berechnet wird.
Der Client analysiert die Eingaben von Menschen und sendet sie als Ereignisse an den Server.
Der Server berechnet daraufhin den Zustand der Virtuellen Welt und reagiert auf die Ereignisse der Clients. Die Ereignisorientierung bildet also die Kausalität der realen Welt ab. So
befiehlt der Anwender über eine Eingabe dem Client, dass sich der Avatar bewegen soll. Der
Server bekommt die Anfrage vom Clienten. Er ändert den Zustand des Avatars auf „laufen“
und übermittelt allen Teilnehmer der Virtuellen Welten, dass sich der Zustand des Avatars von
„stehen“ auf „laufen“ geändert hat. Dank diesem Mechanismus ist es möglich, über Avatare
zu kommunizieren.
Kommunikation basiert auch auf Kausalität und ist der dritte wichtige Begriff dieser Arbeit. Kommunikation ist verbale oder nonverbale Interaktion, die durch Zeichen und Symbole
vermittelt wird. Diese Zeichen und Symbole werden über die fünf Sinne des Menschen aufgenommen und verarbeitet. In der zwischenmenschlichen Kommunikation wird zwischen Sender
und Empfänger unterschieden. Der Sender verschlüsselt die Information und schickt sie dem
Empfänger. Dieser entschlüsselt und interpretiert sie. In Virtuellen Welten wird über Avatare miteinander kommuniziert. Diese computervermittelte Kommunikation ist den tertiären
Medien zuzuordnen. Der Sender kommuniziert über einen Avatar mit einem weiteren Avatar,
welcher den Empfänger repräsentiert. Erstrebenswert ist aber die Angesicht-zu-AngesichtKommunikation. Sie ist diejenige zwischenmenschliche Kommunikation mit der höchsten Informationsdichte und es muss Ziel der Virtuellen Welten sein, sich ihr anzunähern.
29
Dazu wurde die Computer Vision eingeführt. Das maschinelle Sehen ermöglicht es dem Computer, die elektromagnetischen Wellen zu analysieren, welche von einer Kamera auf ein Bild
projiziert werden. Die Bilder kann der Computer über mathematische Algorithmen und Modelle interpretieren. Mit dieser Technologie kann unter anderem die nonverbale Kommunikation
zwischen Menschen digitalisiert werden, um sie dann auf einen Avatar abzubilden.
Aufbauend auf diesen Grundlagen muss nun untersucht werden, auf welchem Stand sich die
Forschung befindet. Es wird erklärt, welche Versuche unternommen werden, um Kommunikation in den virtuellen Raum zu übertragen.
30
3 Analyse virtueller Kommunikation
In der Übersicht des aktuellen Standes der Forschung aus Kapitel 3.3 zeigt sich, welche
Ansätze verfolgt werden, um computervermittelte Kommunikation zu verbessern. In der vorliegenden Arbeit wird ein weiteres Konzept entwickelt. Hierfür muss vorher analysiert werden,
wie in Virtuellen Welten überhaupt kommuniziert wird. Ist der Stand der Kommunikation aufgezeigt, kann darauf aufbauend mit der Bewertung und Einordnung virtueller Kommunikation
begonnen werden.
In diesem Kapitel wird zuerst erläutert, wie Avatare funktionieren, was sie ausmacht und wie
ihnen Leben eingehaucht wird. Nachdem diese technischen Details geklärt sind, wird darauf
eingegangen, welche Aspekte der Kommunikation in Virtuellen Welten genutzt werden. Durch
die technischen Beschränkungen von Avataren und der virtuellen Kommunikation ergibt sich
der Umgehungsansatz, welcher auf die Unterteilung von Interaktion in Interaktionstypen zurück greift.
3.1 Avatare
Avatare wurden in Kapitel 2.1.1 als Repräsentanten des Menschen in der Virtualität vorgestellt. Sie werden benutzt um mit und in der Virtuellen Welten zu interagieren. Der Avatar
präsentiert die Identität eines Nutzer und zeigt seine Erreichbarkeit an. Auch unterstützt der
Avatar den Menschen bei der Navigation und Orientierung im dreidimensionalen Raum.
Rumbke hat diese Begriffe in [Rum05] näher untersucht. Dabei konnte er drei unterschiedliche
Orte der Wechselwirkung in einer Virtuellen Welt ausmachen: Ort der Navigation, Ort der
Interaktion und Ort der Repräsentation. Der Ort der Navigation ist gleichzeitig der Ort des
Fensters in die Virtuelle Welt. Dieses Fenster wird als Kamera bezeichnet, da es die Welt wie
durch eine Kamera aufnimmt und auf dem Computer abbildet. Der Ort der Interaktion wird
auch als Cursor bezeichnet. Hier wird die Handlung und die Interaktion mit der Virtuellen
Welt generiert. Der Cursor wird meist durch eine Tastatur oder eine Maus gesteuert. Der
Ort der Repräsentation ist der Ort, an dem der Avatar visualisiert wird.
Der Ort der Repräsentation ist gleichzeitig der Ort der visuellen Kommunikation. Die Position, das Aussehen und die Bewegung des Avatars sind wichtige Indikatoren für virtuelle
31
zwischenmenschliche Kommunikation. Groh und Zavesky haben in [GZ08] das Bild des Avatars und dabei auch die Bedeutung dessen Position für die Kommunikation untersucht. Hier
konnten sie wichtige Vektoren erarbeiten, welche für die Kommunikation von Relevanz sind.
Darunter fallen der Körpervektor, der Gesichtsvektor, der Torsovektor und der Beinvektor.
Je nach Kommunikation können aus diesen Vektoren bereits wichtige nonverbale Indizien
gezogen werden. Sie sind in der Abbildung 3.1 aufgezeigt.
Körpervektor
Gesichtsvektor
Torsovektor
Beinvektor
Abbildung 3.1: Vektoren der Avatarposition nach [GZ08]
Neben den Avatarvektoren sind weitere Eigenschaften der Repräsentation wichtig für die
Kommunikation. In [Bla02] werden zwei Eigenschaften in Bezug auf die Eigenrepräsentation von Menschen untersucht: die Ähnlichkeit im Verhalten des Avatars und die Ähnlichkeit
im Aussehen des Avatars. Mit der Ähnlichkeit des Aussehens beschäftigt sich vor allem die
Computergrafik. Wie in Abbildung 3.2 zu sehen ist, gibt es bereits sehr detailgenaue menschliche Computermodelle. Eigenschaften von physischen Modellen wie Licht, Reflektion, Detail
und Unebenheit können sehr realitätsnah modelliert und berechnet werden. Auch wenn diese
Berechnungen noch bis zu Stunden dauern können, ist es durch das Ausnutzen bestimmter
Eigenschaften des menschlichen visuellen Systems möglich, hochdetaillierte 3D Modelle in
Virtuelle Welten zu übertragen. Der zweite Punkt ist die Ähnlichkeit im Verhalten. Hier gibt
es weitaus größere Probleme in der Realitätsnähe. Wenn die Modelle in die Virtuelle Welt
übertragen sind, müssen sie belebt, also animiert, werden. Im Folgenden wird näher erklärt,
wie Avatare in Virtuellen Welten repräsentiert und animiert werden.
3.1.1 Modellierung
Wie in Kapitel 2.1.2 aufgezeigt, berechnen die Clienten die Grafik der Virtuellen Welt und
damit auch die visuelle Repräsentation der Avatare. Eine Virtuelle dreidimensionale Welt besteht normalerweise aus Vielecken, welche Polygone genannt werden. Diese Polygone sind
32
3.1 Avatare
(a) CG Rendering [Wys07]
(b) CG Rendering [Oli07]
Abbildung 3.2: Beispiele für realitätsnahe 3D Modelle
zu einem Netz verbunden und bilden das Polygonnetz oder auch das Polygonmesh. In Abbildung 3.3(a) ist ein solches Polygonnetz abgebildet. Die Flächen innerhalb der Polygone
werden aus dem englischen übernommen und Faces genannt, so wie die Ecken der Vielecke
Edges heißen. Polygonnetze haben an jedem Face einen Normalenvektor, der orthogonal zu
dem Face steht. Dieser Normalenvektor wird für die Lichtberechnung auf dem Polygonnetz
genutzt. In den Abbildungen 3.3(b) und 3.3(c) ist zu sehen, wie die Normalen an den Ecken
benutzt werden um Lichtreflexionen zu generieren. Die Lichtwerte der Faces werden zu den
Ecken hin interpoliert, um die eigentlich eckige Polygone runder erscheinen zu lassen.
(a) Polygonnetz
(b) Polygonnetz mit Norma- (c) Interpolierte Lichtreflexilen
on
Abbildung 3.3: Polygonnetz eines weiblichen Kopfes
Das Erstellen von Polygonnetzen wird modellieren genannt. Über den Vorgang des Texturieren
33
lassen sich den Polygonen, mit Hilfe einer tabellarischen Zuordnung die sich Mapping nennt,
auch Farben und Texturen zuordnen. Beim UV-Mapping werden zum Beispiel bestimmte
Bildregionen auf Oberflächenregionen des Polygonmeshes abgebildet. In der Abbildung 3.2
des vorigen Abschnittes ist zu sehen, dass auch kleine Unebenheiten der Haut, die Lichtdurchlässigkeit der Haut und selbst Lichtreflektionen der Augen modelliert werden können. Hierfür
werden verschiedene Texturen und Materialeigenschaften zu sogenannten Shadern verbunden. In Abbildung 3.4 ist ein Shader abgebildet und dessen Textur (Diffuse-Map), sowie
dessen Tiefentextur (Bump-Map). Shader vereinen verschiedene weitere Texturen, welche
Lichteigenschaften (Normal-Map) und Materialeigenschaften (Specular-Map) abbilden, um
dadurch Tiefen- und Detaileindrücke zu verstärken. Um fotorealistische Bilder wie Abbildung
3.2(a) und 3.2(b) aus dem vorigen Abschnitt zu erhalten, werden die Shader noch weitaus
komplexer.
Das Generieren der finalen Darstellung wird rendern oder Bildsynthese genannt. Aus den
Polygonnetzen einer Szene wird ein Bild berechnet. Dabei wird zuerst die Verdeckung der
Objekte untereinander berechnet. Darauf aufbauend werden die Objektoberflächen und deren
Materialeigenschaften (Shading) simuliert, um dann die Lichtverhältnisse in der Szene zu
rendern. Wenn diese Berechnungen fertig sind, kann den einzelnen Pixeln im Bild eine Farbe
zugeordnet werden. In Abbildung 3.2 waren bereits zwei gerenderte Bilder zu sehen.
(a) Diffuse-Map des Shaders eines Gesichtes
(b) Bump-Map des Shaders eines Gesichtes
Abbildung 3.4: Diffuse-Map und Bump-Map eines Avatars
34
3.1 Avatare
3.1.2 Animationen
Avatare bestehen aus Polygonnetzen. Im Abschnitt 2.1.2 wurde bereits darauf hingewiesen,
dass Avatare über ein Charakter-Animations-System belebt werden. Das Polygonnetz muss
bewegt werden. Dazu wird ein Skelett in das Polygonnetz gelegt. Dieses Skelett besteht aus
Gelenken (Joints) und Knochen (Bones), wobei die Gelenke die Knochen verbinden. Ist ein
Skelett in dem Polygonnetz positioniert, so kann den einzelnen Knochen ein Einflussgebiet
auf die Ecken, Kanten und Flächen des Polygonnetzes zugeordnet werden. Damit werden das
Skelett und das Polygonnetz verbunden und wenn ein Knochen bewegt wird, werden auch
die damit verbundenen Ecken und Kanten bewegt. Zwei unterschiedliche Zustände eines
Skelettes sind in den Abbildungen 3.5(a) und 3.5(b) dargestellt.
Erstellt werden die Bewegungen über verschiedene Methoden. Die erste Methode sieht vor,
dass die Figur für jedes einzelne Bild leicht verändert wird. So werden zum Beispiel Zeichentrickfilme erstellt, indem 24 Bilder für eine Sekunde Laufzeit gemalt werden, wobei in
jedem Bild die Figur ein wenig bewegt wird. Ähnlich ist auch das Daumenkino aufgebaut.
Diese Methode wurde zur Key-Frame Methode weiterentwickelt. Dabei wird eine Bewegung
in mehrere lineare Bewegungen zerlegt. Jeweils am Anfang und am Ende einer linearen Bewegung wird ein Key-Frame gesetzt und die Zwischenschritte der Bewegung werden vom
Computer durch Interpolation berechnet.
Weiterhin gibt es die kinematischen Methoden, welche in der Robotik entwickelt wurden.
Hier wird unter Vorwärtskinematik und inverser Kinematik unterschieden. Beide basieren auf
einer kinematischen Kette, was bedeutet, dass die Gelenke und Knochen in einer bestimmten Hierarchie angeordnet werden. Bei der Vorwärtskinematik werden der Reihe nach die
Gelenkparameter definiert und die Position des Endes der kinematischen Kette spezifiziert
(End-Effektor). Bei der inversen Kinematik wird die Position des End-Effektors festgelegt
und die dazu passenden Parameter der kinematischen Kette definiert. Wird ein Glied der kinematischen Kette bewegt, berechnet der Computer die Bewegung der benachbarten Glieder.
Dies geschieht auf bestimmten Einschränkungen und Regeln, welchen die Gelenke der Kette
unterliegen. Wird also beispielsweise die linke Hand bewegt, so berechnet der Computer die
Bewegung des linken Armes und dann die folgende Bewegung des gesamten Oberkörpers.
Sind die einzelnen Bewegungsschritte einer Animation definiert, berechnet die Kinematik die
Zwischenschritte der Animation. Es gibt noch eine weitere Methode um Avatare zu animieren.
Für die Animation von kleinen Bewegungen im Polygonnetz, wenn zum Beispiel ein Avatar
reden soll, werden sogenannte Morpher verwendet. Morpher sind zwei Zustände des gleichen
Polygonnetztes, bei welchen jeweils Teile der Ecken und Kanten unterschiedlich verschoben,
rotiert oder skaliert sind. Diese zwei Zustände benutzt der Rechner wiederum, um die Zwischenschritte von dem einen Polygonnetz zum zweiten Polygonnetz zu interpolieren. Es ist
35
nun möglich, alle Zustände zwischen den beiden Polygonnetzen abzurufen. Als Beispiel dienen hier einzelne Mundbilder, welche in der Literatur als Viseme bezeichnet werden. Viseme
sind Abbilder der Mundformen während des Sprechens. Beim Aussprechen von verschiedenen
Vokalen und Lauten formen Menschen den Mund unterschiedlich, um den Ton und den Klang
zu variieren. Diese Formen werden als Viseme modelliert und anschließend per Morpher ineinander überführt. Wenn mehrere dieser Viseme nacheinander abgespielt werden, sieht es
aus, als würde der Avatar sprechen.
(a) Avatar mit Skelett
(b) Bein des Skelettes bewegt
Abbildung 3.5: Skelett eines Avatars und dessen Auswirkung auf das Polygonnetz
Animationen werden von einem Animator oder Animationsdesigner in einer dafür vorgesehenen Umgebung entwickelt und von einem Programmierer als grafische Einheit in die Virtuelle
Welt eingebunden. Sie werden als feste Elemente integriert und haben auf die anderen Elemente der Umgebung keinerlei Auswirkung, da sie keine Effekte in der Logik der Virtuellen
Welt nach sich ziehen. Rumbke nennt Animationen deshalb „bekannte Bewegungsmuster“,
welche auch als „Icon für eine Bewegung“ (vgl. [Rum06], S. 10) bezeichnet werden können.
Mit Icons meint Rumbke bildhafte Zeichen, welche vereinfachte Abbilder dessen sind, was
sie repräsentieren sollen. Das Icon ermöglicht es, den Bedeutungsinhalt einer Bewegung zu
vergegenwärtigen, obwohl die reale Bewegung nicht abgespielt wird. Damit schließt sich der
Kreis zu Abschnitt 2.1.2. Animationen sind vorgefertigte Bewegungsmuster und damit Icons,
36
3.1 Avatare
welche in eine Virtuelle Welt fest eingebunden werden. Dies bedingt die Aufgabenteilung
zwischen Server und Client. Beiden müssen die gleichen Bewegungsmuster zur Verfügung
stehen. Der Server kann die aktuelle Animation eines Avatars festlegen, welche dann von
jedem Client abgespielt wird. Ein Client kann wiederum beim Server eine neue Animation
anfordern, falls durch die Eingabe eines Nutzers der Avatar von einem Zustand auf einen
anderen Zustand gesetzt wird. Jeder Avatar besitzt demnach eine bestimmte Anzahl an Bewegungsmustern. Wieviele Bewegungsmuster und ob neue Bewegungsmuster in die Virtuelle
Welt eingeführt werden können, hängt von der jeweiligen technischen Umsetzung ab. Hier
wird die große Beschränkung von nonverbaler Kommunikation in Virtuellen Welten offensichtlich. Technisch ist es nicht möglich, den Avatar frei zu bewegen und die Bewegung eines
Menschen eins-zu-eins auf einen Avatar zu übertragen. Es müssen bestimmte Verhaltensmuster vorgespeichert werden, um dann das richtige Verhaltensmuster für eine entsprechende
Situation abzuspielen. Die Bewegung wird das Icon für einen bestimmten Bedeutungsgehalt.
Es kann der reinen Sachinformation Hilfe für deren Interpretation angeboten werden, in Form
einer Animation.
Wie in Abbildung 3.5(b) deutlich zu sehen ist, können Animationen unrealistisch wirken.
In diesem Beispiel sind die Gelenke zwischen Torso und Beinen sowie zwischen Bein und
Fuß unrealistisch dargestellt. Die Gelenke sind anpassbar, trotzdem ist es ein komplexes
Problem menschenähnliche Avatare so aussehen zu lassen, dass man sie auch als realistisch
anerkennt. Masahiro Mori hat in diesem Zusammenhang ein Phänomen entdeckt, welches er
„Das unheimliche Tal“ (Uncanny Valley) nennt.
3.1.3 Das unheimliche Tal
Masahiro Mori, ein Designer für Roboter, hat die Relation zwischen Menschenähnlichkeit und
wahrgenommener Vertrautheit untersucht. Dabei steigt die Vertrautheit mit dem Anstieg
der Ähnlichkeit bis zu einem bestimmten Punkt, an dem feine Unterschiede in Verhalten und
Aussehen den irritierenden Effekt „des unheimlichen Tales“(Uncanny Valley) hervorbringen,
welcher in Abbildung 3.6 dargestellt ist [Mor70]. Als Beispiel können auch die Abbildungen
3.2 dienen. Das Bild 3.2(b) erscheint unrealistischer als das Bild 3.2(a), es wirkt kälter und
einer Puppe ähnlicher.
Gemäß Mori wird der Effekt in der Bewegung noch deutlicher. MacDorman versucht daher
in [Mac05], das unheimliche Tal für Bewegungen zu erklären. Wenn sich Kreaturen bewegen,
wird es durch Menschen als Zeichen für Lebendiges wahrgenommen. Beginnen Androiden
oder Charaktere sich zu bewegen, verstärkt sich daher Effekt des unheimlichen Tales. Bei
Industrierobotern ist der Einfluss von Bewegung auf die Wahrnehmung sehr klein, weil er nur
als Maschine und somit als leblos wahrgenommen wird. Wenn der Roboter aber programmiert
wird, um menschenähnliche Bewegungen zu vollziehen, wird ein Maß an Vertrautheit erzeugt.
37
Menschenähnliche Bewegungen benötigen eine bestimmte Geschwindigkeit und Beschleunigung. Entspricht einer als lebendig zugeordneten Puppe also nicht genau den erwarteten
Parametern, zieht dies ein Unwohlsein hervor sich. Wenn bespielsweise eine Handprothese
bewegt wird, welche nach Grafik 3.6 am unteren Ende des unheimlichen Tales ist, wächst bei
Menschen die Befremdlichkeit gegenüber dieser Prothese stark.
Um den Effekt des unheimlichen Tales vorzubeugen, ist ein menschenliches Verhalten und
Aussehen erstrebenswert. So werden Animationsfilme in Hollywood mit Autos und Tieren
produziert1 , welche durch ihre menschenähnliche Gestik und Mimik starke Vertrautheit erzeugen können. Auf die Darstellung von Menschen wird aus Angst vor dem unheimlichen Tal
noch verzichtet.
MacDorman et al. versuchen in [Mac05] den Effekt des Uncanny Valley zu erklären. Dafür
stellen sie die Theorie auf, dass die unheimlich aussehenden Androiden so irritierend sind,
da sie Angst vor dem Tod hervorrufen. Der Mensch stellt Erwartungen an seinen Kommunikationspartner, wenn dieser erst einmal als solcher identifiziert ist. Verhält sich der Partner
dann allerdings nicht entsprechend den Erwartungen und Normen an Aussehen und Bewegung, zieht dies ein Unwohlsein nach sich. In der Studie wird untersucht, ob ein Android
im unheimlichen Tal die gleichen Mechanismen im Menschen nach sich ziehen kann, wie die
Konfrontation mit dem Tod. Der Ausgang der Studie unterstützt diese Hypothese.
Abbildung 3.6: Das Uncanny Valley
Vor allem in der Filmindustrie wird die Forschung zum umheimlichen Tal vorrangetrieben. Im
1
vergleich http://www.pixar.com/featurefilms/cars/ und http://www.pixar.com/featurefilms/rat/
38
3.1 Avatare
folgenden Abschnitt wird das Verfahren vorgestellt, welches diesen Effekt für Bewegungen
überwinden kann.
3.1.4 Motion-Capture
Furniss hat in [Fur99] festgestellt, dass mehrere Begriffe für das Motion-Capture, was soviel
bedeutet wie Bewegungsaufnahme, verwendet werden: Performance-Animation, PerformanceCapture, Virtual-Theatre und Digital-Puppetry sind nur einige davon. Deutlich wird schon
aus den Bezeichnungen, dass es sich um die Aufnahme von menschlichen Bewegungen handelt, um damit Puppen wie in einem Puppentheater zu beleben. Motion-Capture wird in
vielen verschiedenen Richtungen eingesetzt. In der Musik, in der Kunst und dem Tanz,
der Zeichensprache, Gestenerkennung, der Rehabilitation und Medizin, der Biomechanik und
in den Spezialeffekte-Studien Hollywoods. Mit der Weiterentwicklung der Motion-CaptureTechnologie hat sich in den ersten Jahren des 21. Jahrhunderts der Begriff Motion-Capture,
kurz Mocap, durchgesetzt.
In der wissenschaftlichen Arbeit von Dyer, Martin und Zulauf wird Motion Capture als Technik, die das Messen der Position und Orientation im physischen Raum ermöglicht, definiert.
Die gemessenen Daten werden digitalisiert, damit sie im Computer weiter bearbeitet werden
können [DMZ95]. Die Untersuchungsgegenstände sind dabei die menschlichen und nichtmenschlichen Körper, die Position von Kamera und Licht sowie andere Elemente in einer
Szene. Es gibt verschiedene Wege die Bewegung aufzunehmen. Furniss hat hier zwischen
optischen, magnetischen und mechanischen Aufnahmeverfahren unterschieden. Dies sind die
Hauptaufnahmeverfahren, wobei damit noch nicht alle Möglichkeiten ausgeschöpft sind. Andere Aufnahmeverfahren basieren auf Sound, Biofeedback, eletrischen Feldern, Trägheit und
Videoaufnahmen [Fur99].
In der Film- und Unterhaltungsindustrie werden hauptsächlich optische und videobasierte
Motion-Capture-Verfahren benutzt. Diese basieren auf Markern, welche auf einen Anzug
genäht werden. Diese Marker sind stark lichtreflektiv, sodaß sie die Kameras mit starken
Kontrast zum Hintergrund aufnehmen können. Ein Schauspieler zieht diesen Anzug an und
die Bewegungen werden von mehreren Kameras aufgenommen und verarbeitet. Durch die
Konstellation der Marker in den verschiedenen aufgenommenen Bildern berechnet der Computer die Position und Orientierung des Anzuges im Raum. Diese Informationen werden auf
ein Skelett, mit den gleichen Gelenken wie der Mensch sie besitzt, projiziert. Mit diesem
Skelett können dann Avatare und Computerfiguren belebt werden.
Eine neuere Entwicklung der Motion-Capture-Technologie ist das sogenannte markerlose
Motion Capture. Hierfür wird mit mehreren Graubildkameras die Silhouette einer Person
aufgenommen und aus den Bildern die Position und Orientierung im Raum berechnet. Die
39
markerlose Anlage an der Hochschule für Technik und Wirtschaft in Dresden ist in Abbildung
3.7 festgehalten.
Abbildung 3.7: Motion-Capture Anlage
Durch Ungenauigkeiten der Messtechnik kann es vorkommen, dass die gemessenen Positionen verwackeln. Wie bei traditionellen Animationen gibt es deswegen auch mehrere Phasen
bei der Erstellung von Motion Capture Daten. Lisa Marie Naugle identifiziert sie wie folgt:
Aufbauen des Studios mit Kameras und Hintergrund, Kalibrieren der Kameras, Aufnehmen
der Bewegungen, Reinigen der Daten sowie Entfernen des Zitterns und Nachbearbeiten der
Daten [Nau99].
Mit dem Motion Capture lassen sich die gesamtkörperlichen Bewegungen eines Menschen
oder Tieres aufnehmen und auf virtuelle Computerfiguren übertragen. Problematisch ist dagegen die Aufnahme des menschlichen Gesichtes. Dies ist von besonderer Relevanz für die
nonverbale Kommunikation über Mimik, wie zum Beispiel Hinweise auf Aufmerksamkeit, Zuneigung und Abneigung, welche vom Gesichtsausdruck abhängen. Die Lösung dieses Problems
haben Image Metrics mit dem Emily Project2 vorgestellt. Es wurde eine Software entwickelt,
welche markerlos das Gesicht einer Schauspielerin nachbildet und die Gesichtsausdrücke realitätsnah animiert. Die Nachbildung von Emily OB́rien ist in Abbildung 3.8 dargestellt. Die
Aufnahme muss allerdings in einem Studio und mit einer genauen Kameraanordnung erfolgen.
Dies schränkt wiederum die Beweglichkeit der Technologie stark ein.
2
Quelle: http://www.image-metrics.com/project/emily-project
40
3.2 Verbale und visuelle Kommunikation
Abbildung 3.8: Das Emily Project von Image Metrics
Performance Capture
Der erste Film der über das unheimliche Tal vollständig triumphieren konnte, ist Avatar:
Aufbruch nach Pandora von James Cameron3 . Für diesen Film wurde eine neuartige Technologie benutzt, das Performance Capturing. Zur Erstellung der animierten Avatare übertrug
Cameron die Gesichtszüge der Schauspieler auf die Computerfiguren, um dann die gesamte
Bewegung von Körper und Gesicht abzubilden zu können. Die Schauspieler können sich so frei
bewegen und jede ihrer Bewegungen und Mimiken wird aufgenommen. Durch weitere immersive Techniken, wie die Darstellung in drei Dimensionen, die Computergrafik und eine genau
angepasste Soundkulisse, zog dieser Film Millionen von Menschen in die Kinos4 . Eine Darstellung der Performance-Capturing-Technologie ist in Abbildung 3.9 zu sehen. Die Immersion
in die Welt Pandoras wirkte auf einige Menschen sogar so stark, dass sie im nachhinein über
Depressionen klagten5 . Die reale Welt wirkt gegen dieses bunte Spektakel geradezu grau und
langweilig.
Es wird gerade bei diesem Film deutlich, in welche Richtung sich die Kommunikation in
Virtuellen Welten entwickeln muss. Das unheimliche Tal zu überbrücken ist ein wichtiger
Schritt, um die Immersion der Virtuellen Welten zu erhöhen.
Im vorherigen Abschnitt wurde erläutert, wie ein Avatar aufgebaut ist. Die Figur kann auch
belebt werden, was nach der Theorie von Rumbke [Rum06] als Bewegungsmuster interpre3
vgl. http://www.avatar-derfilm.de/
vgl. http://de.wikipedia.org/wiki/Avatar__Aufbruch_nach_Pandora
5
vgl. http://www.derwesten.de/kultur/Depressionswelle-nach-Avatar-id2451221.html
4
41
(a) Schauspieler
(b) Avatar
Abbildung 3.9: Performance Capturing für den Film Avatar
tiert wird, welches den aktuellen Zustand und Bedeutungsgehalt der Figur abbilden soll. So
zum Beispiel ob die Figur läuft oder steht, ob sie rennt oder fliegt. Damit lassen sich Teile
der nonverbalen Kommunikation transferieren. Welche Aspekte der Kommunikation in die
Virtualität übertragen werden, soll in diesem Abschnitt untersucht werden.
3.2.1 Text
Die Kommunikation in Virtuellen Welten begann über Text. Die ersten Spiele mit vernetzten
Computern und Avataren basierten auf Textadventuren. Roy Trubshaw entwickelte das Spiel
Multi-User-Dungeon (MUD), welchem ein ganzen Genre mit dem gleichen Namen folgen
sollte [Kee97]. Ein Beispiel für ein deutsches MUD, das MUD Silberland, ist in Abbildung 3.10
dargestellt. Um Informationen zu übermitteln wird der Text wie in einem interaktiven Buch
präsentiert. Verschiedene nonverbale Hinweise müssen so über den Text transportiert werden.
In dem Beispiel aus Abbildung 3.10 wird der Figur Bürgerin das Attribut klein zugeordnet.
Durch die Weiterentwicklung der Virtuellen Welten zum Grafischen, hat sich auch die Rolle
des Textes geändert. Figurale Attribute wie klein sind nicht mehr nötig, und so hat sich der
Text zum reinen Chat-System weiterentwickelt und wurde hauptsächlich benutzt, um verbale
Informationen geschrieben zu übermitteln.
Da die Ausdrucksmöglichkeiten über einen Chat sehr beschränkt sind und eine Abbildung
von Stimmung und Gefühl nur durch ausführliche textuelle Beschreibung möglich ist, haben sich sogenannte Emoticons entwickelt. Das Wort Emoticon ist eine Wortschöpfung aus
den beiden Begriffen Emotion und Icon. Emoticons sind eine Zeichenfolge aus Satzzeichen,
welche als Smilies interpretiert werden, um Stimmungs- und Gefühlszustände auszudrücken.
Bekannte Beispiele sind „:-)“ für Freude und „:-(“ für Traurigkeit. In neueren Chat- und E-MailProgrammen werden diese Smileys in Grafiken umgesetzt, um sie besser lesbar zu machen.
Virtuellen Welten wie Second Life und World of Warcraft sind noch einen Schritt weiter
42
Abbildung 3.10: deutsches MUD Silberland
gegangen. Durch die Repräsentation von Menschen durch dreidimensionale Avatare wird das
Emoticon erkannt und darauf basierend ein bestimmtes Bewegungsmuster, eine bestimmte
Animation, abgespielt. Dazu zählt zum Beispiel die Animation von Lachen oder Weinen nach
der Eingabe von „:-)“ oder „:-(“.
Neben Emoticons hat sich der Status als textuelle Stimmungsanzeige durchgesetzt. Durch
das Setzen eines Status ist man in der Lage, einen Zustand an den eigenen Namen, welcher
dort als textueller Avatar begriffen werden kann, anzuhängen. So zum Beispiel „Nameŝad“, was
für eine traurige Stimmung stehen kann. Der Status wird in Virtuellen Welten wiederum über
Animationen dargestellt. Über ihn kann auch auf die Aufmerksamkeit geschlossen werden.
Wird der Status auf „afk“ gesetzt, was bedeutet, dass gerade niemand am Rechner ist, so
wird dies in Chats zum Beispiel als „Nameâfk“ angezeigt. In Virtuellen Welten werden dazu
Posen der Avatare benutzt. So setzt sich der Avatar in World of Warcraft auf den Boden,
wenn der Nutzer seinen Status auf „afk“ setzt. In Second Life fällt der Avatar dagegen wie
eine leblose Puppe zusammen, was darauf hinweisen soll, dass der puppenspielende Nutzer
gerade nicht zur Verfügung steht. Weitere Status sind zum Beispiel „nicht da“, „bitte nicht
stören“ oder „beschäftigt“.
3.2.2 Sprache
Zu Beginn des 21. Jahrhunderts hat sich die Bandbreite der Internettechnologien soweit verbessert, dass auch Sprache und Musik in Echtzeit übertragen werden können. Diese Übertragung wird streamen genannt, da die Informationen in kleine Stücke zerhackt werden und über
das Internet fließen, um dann wieder zusammengesetzt und abgespielt zu werden. Dadurch
ergibt sich eine schnellere und effizientere Übertragung von Informationen, da die verbale
Kommunikation eins zu eins in Virtuelle Welten übertragen wird. Umständliches Beschreiben
persönlicher Zustände, Weiterleiten von Befehlen und allgemeiner Inhalte über Text ist nicht
43
mehr nötig.
Sprache ist nicht nur verbale Übertragung von Informationen. Schon wenn man jemanden
sprechen sieht, ohne denjenigen zu hören, ist der Mensch dazu in der Lage zu erkennen, dass
gesprochen wird. Es gibt ein visuelles Feedback: die Bewegung des Mundes. Diese Bewegung
ist auch in der Virtualität von Relevanz, da sie Teil der Kommunikation ist. Cassell et al.
haben bereits 1994 ein komplexes System entwickelt, um auf Basis eines Dialoges automatische Animationen zu generieren [CPB+ 94]. Diese automatisierten Computerfiguren sollen
menschliche Angesicht-zu-Angesicht Konversationen nachbilden. Dazu wurden die einzelnen
Mundformen des Menschen, sogennante Viseme, zugehörig zu entsprechenden Phonemen
visualisiert, wie in Abbildung 3.11 zu sehen ist. Je nachdem welche Phoneme sich aus dem
Dialog ergeben, verformt sich der Mund der Figuren entsprechend. Die Lippensynchronisation
in Verbindung mit der auditiven Übertragung ist dabei eine direkte eins-zu-eins Übertragung
der Kommunikation.
Abbildung 3.11: Verschiedene Viseme
3.2.3 Gesten
In Virtuellen Welten gibt es neben der direkten verbalen Kommunikation und der textuellen
Kommunikation auch nonverbale Kommunikation über Posen und Gesten. Diese greifen auf
das Animationssystem zurück, welches in Abschnitt 3.1.2 vorgestellt wurde. Die Avatare werden durch Eingabegeräte gesteuert, welche vordefinierte Animationen auslösen oder ändern
können. Das System gilt auch bei Gesten und Posen. So werden sie über ein Eingabegerät
wie Tastatur oder Maus ausgelöst und sollen einen Interaktions- oder Kommunikationszustand abbilden. Gesten sind also wie Animationen als Icons für Kommunikationszustände zu
verstehen.
44
3.3 Nonverbale Kommunikation
Das Gestensystem kann über verschiedene Wege gesteuert werden. In Virtuellen Welten wie
Second Life oder World of Warcraft werden Gesten über eigens definierte Tastatureingaben
gestartet. So zum Beispiel „/dance“ um zu tanzen oder „/afk“ um anzuzeigen, dass gerade
niemand den Avatar steuert, da der Nutzer sich nicht an der Tastatur befindet. In Second
Life ist es außerdem möglich, für bestimmte Gesten zugehörige Tasten zu definieren. Wenn
diese Taste dann gedrückt wird, so startet das Animationssystem die Geste. Das Auslösen
der Gesten über die Tastatur oder eine Maus muss demnach manuell gestartet werden.
Erste automatische Ansätze sind in Second Life zu entdecken. Hier reagiert das Gestensystem, sobald ein Spieler 5 Minuten nichts über die Tastatur oder Maus eingegeben hat.
Danach wird die Pose für Abwesenheit gestartet. Problematisch ist hier allerdings die Zeitverzögerung des Statusupdates. Der zweite automatische Gestenansatz in Second Life wird
durch die Spracheingabe im Mikrofon ausgelöst. Durch Geräusche im Mikrofon wird vom
Gestensystem eine Animation gestartet, bei welcher die Person leicht gestikuliert.
Eine weiter entwickelte Technologie wird in dem Online-Spiel „Star Wars: The Old Republic“ zur Zeit von Bioware entwickelt6 . Hier wurde eine Technologie entwickelt, um Dialoge
zwischen Spielfiguren automatisch zu animieren. Dabei sind mit Spielfigur der Avatar aber
auch andere Nicht-Spieler-Charaktere gemeint, welche von Agenten gesteuert werden. Das
Animationssystem verbindet dabei eine von siebenundzwanzig Grundemotionen mit dem vorgeschriebenen Dialog und generiert daraus Gestik, Lippenbewegung und Gesichtsausdrücke.
Dies gelingt für menschliche sowie auch außerirdische, also nicht-menschliche Charaktere.
Die Einschränkung in diesem System ist es, dass im vorhinein die Dialoge und Stimmungen
bekannt sein müssen und nicht in Echtzeit verarbeitet werden können. In dieser Hinsicht zieht
es die gleichen Einschränkungen wie im System von Cassell et al. nach sich [CPB+ 94]. Cassell hat ein System vorgeschlagen, welches aufgrund von Dialogen in verbaler Form automatisch aus Text und Intonation die Animationen für Lippensynchronisation, Gesichtsausdrücke,
Kopfbewegungen, Augenkontakt und Körpergesten erstellt.
Die Integration nonverbaler Kommunikation in Virtuelle Welten lässt sich in drei Forschungsansätze unterteilen. Der erste Ansatz beschäftigt sich mit der Integration von nonverbaler
Kommunikation in Virtuelle Welten. Dabei wird die zwischenmenschliche Kommunikation
analysiert. Der zweite Ansatz untersucht die Kommunikation mit Agenten. Dort wird versucht softwaregesteuerte Avatare zu entwickeln, die von Agenten gesteuert werden. Hier geht
es um Künstliche Intelligenz und Sprachanalyse, sowie um realistische nonverbale Kommu6
Stand 21.03.2010
45
nikation zwischen Mensch und Maschine. Die Herausforderung in diesem Gebiet ist es, den
durch Agenten gesteuerten Avatar menschlich erscheinen zu lassen. Das dritte große Gebiet
beschäftigt sich mit Videokonferenzen und entwickelt diese weiter.
Kommunikation über Avatare
Die Darstellung und Animation anthropomorpher Avatare ist Bestandteil jeder Virtuellen
Welt. Um nonverbale Kommunikation zu übertragen, gibt es verschiedene Ansätze. Salem et
al. untersuchten die Schlüsselrollen des Avatars in [SE00]. Sie identifizierten vier Fragestellungen. Die erste ist die Identität des Nutzers, die aus dem Avatar abgeleitet werden kann. Dann
die Zugänglichkeit des Nutzers, also in wie weit auf die Eingabe von Nutzern zugegriffen werden kann. Die dritte Fragestellung wurde als Status des Nutzers erkannt, womit hinterfragt
wird, ob der Nutzer aufmerksam ist und welche Rolle der Nutzer in der virtuellen Umgebung
inne hat. Der letzte Punkt sind die Charakteristiken und Funktionen von Avataren, die in virtuellen Umgebungen ausgeübt werden können. Auf Basis dieser Fragestellungen entwickelten
Salem et al. eine Reihe von Körperposen, Gesichtsausdrücken und Handgesten, welche generisch aus dem geschriebenen Textchat erkannt werden. Dazu bestimmt Salem eine genaue
Kommunikationsstruktur. Je nachdem in welchem Interaktionsstatus sich ein Avatar mit einer
Gruppe von Avataren befindet, werden bestimmte nonverbale Hinweise abgespielt.
Innocent und Haines entwickeln diese Idee in [IH07] noch weiter. Die gesamte Kommunikation ihrer virtuellen Umgebung läuft über Icons ab. Ein Bild der Darstellung ist in Grafik
3.12 aufgezeigt. Man kann erkennen, dass es sich um Pictogramme handelt, die bestimmte
nonverbale Hinweise darstellen sollen. Je nachdem was gerade ausgedrück und kommuniziert
werden soll, muss ein bestimmtes Pictogramm angeklickt werden. Aus dem Pictogramm
wird dann eine Animation abgespielt. Die gesamte Interaktion in dieser Umgebung basiert
auf Icons.
Kommunikation mit Agenten
Während bei der Forschung zur Kommunikation zwischen Avataren nach Hinweisen gesucht
wird, um nonverbale Zeichen auszulösen, wird in der Forschung zu Agenten versucht, den
Status der Kommunikation zu erkennen. Aufbauend auf dem erkannten Status, werden vom
Computer nonverbale Zeichen abgespielt. Vilhjalmsson stellt in [VC98] dazu ein algorithmisches System auf, um auf Ereignisse in der Virtuellen Welt zu reagieren. Im Speziellen wird
auf Ereignisse eines von Menschen gesteuerten Avatars reagiert. Zu den Ereignissen wird ein
Stück vorgefertigte Konversation zugeordnet, auf dessen Basis dann ein Kommunikationsverhalten mit einer Animation und Textschnipseln abgespielt werden. Auch hier wird ein festes
System an Reaktionen vorgegeben. Während der Kommunikation ist es dem Agenten zum
Beispiel möglich auf Bewegungen mit Spiegelbewegungen zu reagieren und bei Fragestellun-
46
Abbildung 3.12: Nonverbale Pictogramme
gen die Augenbrauen zu heben.
Dieser Ansatz wird ständig weiter verfeinert. Rushforth et al. haben zum Beispiel in [RGA+ 09]
ein System zur Abgleichung von sprachlichen und visuellen Kommunikationselementen virtueller Agenten entwickelt. Dabei werden Phoneme und Animationen zeitlich synchronisiert, um
eine realistische Bewegung und Sprache von Agenten zu ermöglichen. Mit diesem System
wurden Ada und Grace aus dem Projekt „InterFaces“ des Cahners ComputerPlace animiert
und es lässt sich unter [fCTatUoSC10] abrufen.
Videokonferenzen
Videokonferenzen sind der zweite Weg um nonverbale Kommunikationen zu virtualisieren.
Dabei wird das reale Bild über den Computer übertragen und beinhaltet die visuellen nonverbalen Kommunikationshinweise, wie Mimik, Gestik und Teile der Aufmerksamkeit. Andere
Hinweise, wie zum Beispiel die Proxemik oder Augenkontakt, sind damit nicht abbildbar.
In diese Richtung wird jedoch geforscht. In dem Paper [JLF+ 09] von Jones et al. wird ein
kompliziertes Verfahren vorgestellt, um Videokonferenzen zu dreidimensionalisieren und Augenkontakt herzustellen. Dafür verbinden sie einen Echtzeit 3D Gesichtsscanner mit einem
3D-Anzeige-System, wie es in der Grafik 3.13(a) zu sehen ist. Die Aufnahmen aus dem Scanner werden eins zu eins auf das Anzeige-System abgebildet und erlauben Augenkontakt. Das
Anzeige-System besteht aus einem sich schnell drehenden Spiegel. Auf diesen Spiegel wird
mit einem Projektor das Video auf den Spiegel projiziert. Durch die sehr schnelle Drehung
des Spiegels wird die Projektion als dreidimensional wahrgenommen.
47
Ein anderer Weg Videokonferenzen zu verbessern ist in [OYK+ 03] vorgestellt. Ogi et al.
entwickelten ein Videokonferenzsystem in einer CAVE-Umgebung. Dazu werden Avatare per
Kamera aufgenommen und in die CAVE projiziert, wie in den Grafiken 3.13(b) zu sehen ist.
(a) 3D Videokonferenz
(b) Videokonferenz in CAVE
Abbildung 3.13: Erweiterungen für Videokonferenzen
3.4 Interaktionstypen
In den Grundlagen wurde im Abschnitt 2.2.1 die Kommunikation von der Interaktion abgegrenzt. Kommunikation kann als spezifische Form der sozialen Interaktion verstanden werden, womit die Kategorisierung von Interaktion in Interaktionstypen die zwischenmenschliche
Kommunikation enthält. Groh und Salem haben sich mit der Unterteilung in Interaktionstypen
besonders auseinander gesetzt. Kann die Interaktion in Kategorien unterteilt werden, dann
ist es einfacher, die Kommunikation zwischen Avataren zu klassifizieren, da je nach Interaktionstyp andere avatarische Verhaltensmuster und demnach Bewegungs-Icons greifen.
Interaktion nach Groh
Groh und Zavesky untersuchen, wie „Verhaltensmuster und Aktionsrichtungen von Avataren
mit Hilfe von Vektoren erfasst werden können“ (vgl. [GZ08], S. 1). Dabei wird aufgezeigt,
dass Avatare durch die computergrafische Parallelprojektion verzerrt werden. Dies geschieht
aufgrund eines festen Frustum in der Mitte der Kamera, welches nicht dem natürlichen
Sehen des Menschen enspricht, da hier der Fokalpunkt und damit das Frustum in ständiger
Bewegung ist. Es kommt also zu einem Fehler in der Wahrnehmung der Avatare und damit
in der zwischenmenschlichen Kommunikation. Groh und Zavesky schlagen das Verfahren
der „Erweiterten Perspektivischen Korrektur“ vor, um diesen Fehler der Computergrafik zu
48
3.4 Interaktionstypen
beheben. Nachdem die Avatarvektoren definiert und die perspektivischen Fehler beseitigt sind,
wird das Verhalten von Avataren in Interaktionstypen unterteilt, damit Avatare und deren
Aktionen vergleichbar werden. In der Abbildung 3.14 sind die definierten Interaktionstypen
dargestellt.
Abbildung 3.14: Interaktionstypen aus [GZ08]
Groh und Zavesky unterteilen die virtuelle Interaktion in die Interaktionstypen Selbstbetrachtung, Bewegung, Beobachtung und Kommunikation. Die Kommunikation wird dabei noch in
Ankunft, Begrüßen, Wirken, Austausch und Entfernen unterteilt. Es wird zwischen Interaktion vom Menschen mit dem Avatar und Interaktion zwischen Avataren unterschieden. Dies ist
sinnvoll, da der Avatar auch zur Indentitätsstiftung, Orientierung und Navigation beiträgt. Die
Identität kann zur computervermittelten Kommunikation beitragen, wie in Abschnitt 4.2.3
vertieft werden wird.
Interaktion nach Salem
Salem stellt in [SE00] eine nonverbale Sprache für Avatare vor. Er deutet auf die Schlüsselrolle der Avatare für Virtuelle Welten hin und definiert eine Gesten- und Ausdruckssprache
auf Basis von Interaktionstypen. Diese Interaktionstypen unterteilt Salem in vier Kategorien:
einer Konversation beitreten, an einer Konversation teilnehmen, eine Konversation verlassen und die Interaktion zwischen Avatar und Mensch. Die Interaktion zwischen Avatar und
Mensch kann auch als Status des Nutzer, also des Menschen hinter dem Avatar verstanden
werden. Im Gegensatz zu Groh untersucht Salem hier nicht das Betrachten des Avatars durch
den Menschen, sondern den Zusammenhang zwischen dem Status des Nutzers und dem korrespondierendem Interaktionstyp des Avatars. Zusätzlich wird ein Gruppenstatus postuliert,
welcher anzeigen soll, ob einer laufenden Gruppen-Interaktion beigetreten werden kann oder
nicht. Diesen Interaktionen ordnet Salem definierte Bewegungsmuster zu. Eine Zuordnung
49
ist in Abbildung 3.15 dargestellt.
Abbildung 3.15: Animation-Interaktion Zuordnung von Salem
Salem entwickelt ein ähnliches System wie Groh. Interaktion lässt sich in verschiedene Subtypen unterteilen und darauf aufbauend werden Bewegungsmuster zugeordnet, wie das Winken
beim Abschied oder das Wegdrehen bei der Vorbereitung des Abschiedes. Groh fasst die Interaktionstypen dabei eher abstrakt auf und untersucht diese szenisch-bildnerisch, aus dem
Blickwinkel eines Malers, während Salem eher pragmatisch vorgeht. Offensichtlich wird aus
beiden Sichtweisen die Unterteilung der Interaktion in verschiedene Typen, wobei die eigentliche Kommunikation nur ein Subtyp ist. In dieser Arbeit wird sich ausschließlich mit der
Kommunikation an sich beschäftigt und das Zustandekommen und Beenden der Kommunikation vorerst außer acht gelassen.
3.5 Zusammenfassung
In diesem Kapitel konnte der Avatar und seine Kommunikationsmöglichkeiten in Virtuellen
Welten analysiert werden. Der Avatar besteht aus einem in sich geschlossenem Netz von
Polygonen. Das Polygonnetz wird mit Hilfe von komplexen Shadern texturiert und man ist
damit in der Lage, Fotorealismus zu erreichen. Belebt wird das Polygonnetz durch ein Skelett, welches in das Polygonnetz eingepasst wird. Dieses Skelett ist hierarchisch aufgebaut.
Wird die Hüfte bewegt, bewegt sich der gesamte Körper, wird aber ein Finger bewegt, so
bewegt sich nur der Finger. Bei der Animation und der Modellierung von Avataren muss
zusätzlich auf das unheimliche Tal Rücksicht genommen werden. Nähert sich eine Bewegung
oder ein Roboter dem realistischen Bild eines Menschen an, fallen die kleinen Unterschiede
50
3.5 Zusammenfassung
stärker auf, sodaß Bewegung und Aussehen gerade nicht menschlich erscheinen. Diesen unheimlichen Effekt führt MacDorman auf einen Eindruck von Leblosigkeit und Tod zurück.
Da die Modellierung von Avataren bereits Fotorealismus erreichen kann, liegt das Hauptproblem in der Animation von Charakteren. Dafür wurde die Technologie des Motion-Captures
entwickelt und zum Performance-Capture erweitert. Mit dieser Technologie kann die menschliche Bewegung sowie Mimik und Gestik naturgetreu aufgenommen und auf Avataren und
Charakteren abgespielt werden. Es wird offensichtlich, dass damit eine eher realistische Darstellung und Bewegung von Menschen technisch möglich ist. Eine Einschränkung ergibt sich
durch die Server-Client Architektur von Virtuellen Welten, welche in Abschnitt 2.1.2 ausführlich behandelt wurde. Die Clienten bekommen vom Server die Animation mitgeteilt, welche
gerade auf den Charakteren abgespielt wird, wodurch jede Animation dem Server und den
Clienten zur Verfügung stehen muss. Die Animationen werden dadurch zu reinen Bewegungsmustern degradiert und die Kunst ist es, das richtige Bewegungsmuster zur richtigen Zeit
abzuspielen.
Neben diesen Bewegungsmustern existiert in aktuellen Virtuellen Welten wie Second Life
oder World of Warcraft noch textuelle und verbale Kommunikation. Diese haben wiederum
teilweise Einfluss auf die Bewegungsmuster der Avatare. Falls also ein bestimmtes Schlüsselwort geschrieben, in das Mikrofon gesprochen oder jemand längere Zeit abwesend ist,
werden wiederum ensprechende Gesten und Posen abgespielt. Die Bewegungsmuster werden keinesfalls erschöpfend behandelt. Ein erster Ansatz ist, Kommunikation in verschiedene
Interaktionstypen zu unterteilen, worauf entsprechende Bewegungsmuster angepasst werden
können. Diesem Ansatz sind Salem und auch Groh et al. gefolgt.
Ein dritter Weg soll in der vorliegenden Arbeit untersucht werden. An diese Analyse ansetzend soll im folgenden Kapitel ein Bewertungssystem für Kommunikation in Virtuellen Welten
erarbeitet werden. Darauf aufbauend wird ein Konzept zur multimodalen Nutzung der Eingabegeräte und ihrer Auswirkungen auf das Animationssystem mit seinen Bewegungsmustern
erstellt.
51
4 Bewertung virtueller Kommunikation
Im Kapitel 3 konnte der Stand der Kommunikation in Virtuellen Welten aufgezeigt werden.
Daraus folgt die Problematik der Bewertung und Einordung virtueller Kommunikation. Die
Frage, die sich stellt, ist, ob eine Virtuelle Welt eine erfolgreiche Kommunikation ermöglicht
oder, ob zuviele Einschränkungen und Hindernisse existieren. Zur Beantwortung werden in
diesem Kapitel die Einflussfaktoren auf den Erfolg von virtueller Kommunikation erarbeitet.
Erste technische Einflussfaktoren konnten bereits in den Abschnitten 2.1.2 und 3.1 gezeigt
werden. Vor allem psychologische Einflussfaktoren und deren technische Grundlage sollen
final zu einer Bewertung zusammengefasst werden. Aufgebaut wird auf den Grundlagen der
Kommunikationswissenschaften aus Kapitel 2.2.
4.1 Kommunikationskanäle
In den Grundlagen zu den Kommunikationswissenschaften konnte herausgearbeitet werden,
dass die Präzision einer Kommunikation von der Anzahl der aktivierten Modalitäten abhängt.
So schreibt Schreiber, dass „ je mehr Kanäle in der Kommunikation jeweils zusammenwirken,
desto höher ist der Grad der Präzision und der Reflexivität der Kommunikation“ ([Sch90],
S. 132). Nach der Analyse in Kapitel 3 wird auch verständlich, dass ausschließlich der auditive
und visuelle Kanal in Virtuellen Welten benutzt wird. Ob textuelle oder sprachliche Kommunikation, über diese beiden Modalitäten geht es in der praktischen Umsetzung Virtueller Welten
noch nicht hinaus. Im Grundlagenkapitel wurde bereits aufgezeigt, dass erste Erfolge bei der
computervermittelten Aktivierung des olfaktorischen Kanals nachgewiesen werden können.
Auch im taktilen Bereich wird viel geforscht, vor allem durch die Entwicklung von ForceFeedback Handschuhen, wie der Phanton Device von Massie in [MS94]. Diese ermöglichen
es dem Nutzer, in virtuellen Umgebungen haptisches Feedback zu bekommen. Dazu wird
eine mechanisch Kraft auf die Hand und ihre Finger ausgeübt, falls sie in der Virtualität ein
synthetisches Objekt berühren. Interessanterweise wird hier die fehlende Stofflichkeit virtueller Objekte scheinbar aufgehoben, was den eigentlichen Unterschied zwischen Realität und
Virtualität verschwimmen lässt. Drei Jahre später integrierten Ottensmayer und Salisbury
zusätzlich thermale Signale in den Phantom Device [Ott97]. Der thermale Kommunikationskanal ist ein wichtiger Aspekt der haptischen Wahrnehmung. Dies gilt beim Ertasten von
53
Objekten genauso wie in der zwischenmenschlichen Kommunikation, beim Händedruck beispielsweise.
Haptische Schnittstellen dienen vorerst allein Forschungszwecken. Sie sind teuer und auch
der Freiheitsgrad der Bewegung wird deutlich eingeschränkt, wie in [MS94] diskutiert wird.
Zusätzlich sollte über die Anwendungsfälle virtueller haptischer Kommunikation diskutiert
werden. Ist ein haptisches Feedback beim Ertasten und Erstellen von virtuellen Objekten
durchaus sinnvoll, ist dagegen die Nutzung in der zwischenmenschlichen Kommunikation zumindest fragwürdig.
Der gustatorische Kanal wird in der Forschung nicht behandelt. Jedenfalls war es zum Zeitpunkt dieser Arbeit nicht möglich, eine wissenschaftliche Forschung mit dem Ziel einer gustatorischen Umsetzung in Virtuellen Welten zu recherchieren.
Wie am taktilen Kommunikationskanal erarbeitet worden ist, existieren für jeden Kanal mehrere Aspekte. Im Taktilen gibt es zum Beispiel Druck und Wärme. Der auditive und der
visuelle Kanal besitzen dabei unweit mehr Aspekte, welche im Folgenden näher untersucht
werden sollen.
4.1.1 Auditiver Kanal
Der auditive Kanal wird durch Sprache und paraverbale Kommunikation definiert [Bec07]. Mit
Sprache steht dem Menschen im Gegensatz zum Tier eine hoch abstrakte und leistunsgfähige
Verständigungsmöglichkeit zur Verfügung, mit der über Abwesendes und Nicht-Existentes,
Gefühle, Vorstellungen und Ideen genauso kommunizieren werden kann, wie über konkrete
Objekte der realen Welt. Sprache versetzt den Mensch in die Lage, Begriffe zu bilden und
neue sowie individuelle Erfahrungen in das System der Begriffe einzuordnen.
Paraverbale Zeichen sind unmittelbar mit dem Sprechen verbunden. Sie sind Ausdruck der
Art und Weise des Sprechens, sowie Indizien für die Stimmung und Eigenschaften des Redners. Stimmhöhe, -lautstärke, -dynamik, Sprechtempo, Pausen und Verzögerungen können
als Hinweise auf die Aufrichtigkeit oder Glaubwürdigkeit, das Engagement eines Redners,
aber auch als Signale für die Dringlichkeit oder Relevanz einer Aussage interpretiert werden.
Es gibt jedoch keine eindeutige Denotation, da Menschen ihre Emotionen und Stimmungen unterschiedlich verarbeiten und demnach auch unterschiedlich ausdrücken. Je besser sich
die Kommunikationspartner kennen und je mehr kommunikative Kompetenz sie beherrschen,
desto erfolgreicher sind auch die paraverbalen Zeichen interpretierbar.
54
4.2 Erlebnistiefe
4.1.2 Visueller Kanal
In den visuellen Kanal fällt die nonverbale Kommunikation in einer Angesicht-zu-Angesicht
Situation. Unter nonverbalen Signalen sind alle Zeichen zu verstehen, die nicht unmittelbar
mit dem Sprechen selbst verbunden sind, dieses aber begleiten können. Dazu gehören der
Gesichtsasdruck durch die Mimik, die Bewegungen von Händen und Armen, was auch die
Gestik genannt wird und die Körperhaltung sowie Stellung im Raum und zum Kommunikationspartner, was unter dem Begriff Proxemik zusammengefasst wird. Dazu kommt noch
das Blickverhalten, das eine große Rolle bei der kontaktaufnahme und beim Sprecherwechsel
spielt. Nonverbale Signale sind zum Beispiel lächeln, lachen, weinen, aber auch eine entspannte Sitzhaltung, ein Hinüberlehnen zum Kommunikationspartner und Selbstberührungen, wie
das Kratzen am Kopf oder das Augenreiben. Diese Signale können vom Kommunikationspartner als Anzeichen für tatsächliche oder angebliche Befindlichkeit und Stimmung des Redners,
insbesondere für seine Glaubwürdigkeit, gedeutet werden [Bec07]. Deutlich wird hier, dass
wie bei den paraverbalen Zeichen, keine eindeutige Denotation besteht. Dies beruht auf der
Individualität jedes einzelnen Menschen, wie auch auf kulturellen Unterschieden zwischen
Gruppen von Menschen.
4.2 Erlebnistiefe
Im Abschnitt 2.1 der Grundlagen dieser Diplomarbeit wurde darauf verwiesen, dass Jennett
et al. in [?] den Begriff der Immersion analysiert und definiert haben. Immersion wird als
Erfahrung deklariert, welche mit den Eigenschaften Verlust von Zeitgefühl und Gewahrsein
der realen Welt sowie Aufmerksamkeitsfokus und Bindung in der Virtuellen Welt verbunden
ist. Immersion ist daher in Virtuellen Welten durchaus erwünschenswert, aber keine Notwendigkeit für eine erfolgreiche virtuelle Kommunikation. Auf Grund dessen wird die Abgrenzung
der Immersion von Jennett et al. gegenüber der Präsenz aufgegriffen und mit weiteren Begriffen angereichert. Das Sammelsurium an psychologischen Effekten wird unter dem Begriff
Erlebnistiefe zusammengefasst und nach Relevanz für eine erfolgreiche Kommunikation untersucht. Erlebnistiefe bezeichnet den Effekt des Eintauchens in die Virtuelle Welt. Je mehr
der Mensch sich auch kognitiv in der Virtuellen Welt befindet, desto stärker nähert sich die
virtuelle Kommunikation der Angesicht-zu-Angesicht-Kommunikation an. Es wird eine Kommunikation über primäre Medien simuliert.
55
4.2.1 Präsenz
Präsenz ist ein Begriff der seit den neunziger Jahren in der Forschung zur virtuellen Realität
benutzt wird. Slater und Kollegen sind dabei die ersten, die sich ernsthaft um eine Definition bemühen. In [SUS94] wird Präsenz als Gefühl sich in einer Virtuellen Welt zu befinden
definiert. Als wichtigste Konzepte für Präsenz werden Kontrolle, Sensorik, Ablenkung und
Realismus benannt.
In einer Analyse der Philosophen Heidegger und Gibson durch Zahorik und Jenison (vgl.
[ZJ98]) wird Präsenz anders interpretiert. Präsenz entsteht dann, wenn die Umgebung eines
Menschen als realistisch wahrgenommen wird. Sie muss den Erwartungen an Gesetzen und
Regeln der realen Welt entsprechen. Aktionen des Menschen führen zu Reaktionen in der
Umgebung. Der Mensch hat durch die Evolution in der realen Welt deren Gesetzmäßigkeiten
und Regeln erlernt. Darauf aufbauend entwickelt er Erwartungen an diese Welt. Diese Erwartungen werden aufbauend auf den Gesetzmäßigkeiten in der realen Welt gebildet. Präsenz ist
also dadurch bestimmbar, dass der Unterschied an Realismus, bezogen auf Wahrnehmung,
Erwartung und Aktion, zwischen der Virtuellen Welt und der realen Welt untersucht wird.
Der Begriff Präsenz ergibt daher nur Sinn, wenn zwischen zwei Umgebungen verglichen wird.
Hinzu kommt auch, dass oftmals Eindrücke aus beiden Umgebungen wahrgenommen werden,
welche dann miteinander in Konkurrenz stehen.
Festzuhalten ist, dass Präsenz die Immersion fördern kann, aber nicht unabdingbar für eine
immersive Erfahrung ist. So ist es möglich, in einer Umgebung ohne Präsenz, wie Tetris
oder anderer abstrakter Puzzle, immersiert zu sein. Präsenz ist genauso ohne Immersion
möglich. So kann man sich in einer Virtuellen Welt aufhalten, aber nicht immersiert sein, weil
Langeweile auftritt oder man warten muss und dadurch der definierende Effekt von Zeitverlust
nicht eintritt.
Mit Hilfe der Präsenz unterscheidet Milgram Systeme der vermischten Realität. Dazu wird
der Grad des Fotorealismus der computergrafischen Simulation und die Art der Anzeigen
benutzt(siehe Abbildungen 4.2 und 4.1).
keine
Präsenz
Konventionelles
Video
DrahtgitterModell
Farbvideo
Ober�lächenModell
Stereoskopisches
Video
Shader,
Textur,
Transparenz
High De�inition
Video
Raytracing,
Radiosity
3D HD
Video
Real-Time
High Fidelity
3D-Animation
hohe
Präsenz
Abbildung 4.1: Bildqualität und Präsenz nach Milgram ([MK94], S. 9)
Diese beiden Kriterien sind allerdings nicht dazu in der Lage, die Präsenz in einer Virtuellen
Welt in seiner Gesamtheit zu erfassen. Hier wird nur auf einen Teilbereich der visuellen Wahr-
56
4.2 Erlebnistiefe
keine
Präsenz
Monitorbasiert
(Fenster auf
die Welt)
Monoskopische
Bildgenerierung
Große Bildschirme
Multiskopische
Bildgenerierung
Panorama
Head Mounted
Displays
StellvertreterReisen
Echtzeit
Bildgenerierung
hohe
Präsenz
Abbildung 4.2: Anzeigen und Präsenz nach Milgram ([MK94], S. 11)
nehmung eingegangen, denn Wahrnehmungs-, Erwartungs- und Aktionsrealismus lassen sich
nicht allein durch computergrafischen Fotorealismus und auf den Kopf montierte Anzeigen
erlangen.
4.2.2 Soziale Präsenz
Computervermittelte soziale Präsenz ist die Wahrnehmung eines anderen Wesens im virtuellen Raum. In der Psychologie ist soziale Präsenz ein großes Forschungsfeld, in welchem sich
mit der Unterteilung sozialer Präsenz in verschiedene Grade, dem Messen sozialer Präsenz
und den Faktoren befasst wird, die zu sozialer Präsenz führen.
Die Wahrnehmung Soziale Präsenz ist in verschiedene Grade unterteilbar. Der unterste Grad
sozialer Präsenz ist durch das Bewusstsein charakterisiert, einen Raum mit einem anderen
Wesen zu teilen. Es handelt sich um eine rein räumliche Wahrnehmung des Anderen. Der
höchste Grad sozialer Präsenz definiert sich durch beiderseitige Zugänglichkeit über gegenseitige Aufmerksamkeit, gegenseitiges Verständnis, den geteilten emotionalen Zustand und
voneinander abhängiges Verhalten [BH02].
Biocca und Kollegen weisen auf den Focus sozialer Präsenz in Hinsicht auf die Interaktion
zwischen Verstand und Technologie hin. Im Speziellen gehen sie darauf ein, welche verschiedenen Technologien und Darstellungen den Prozess der mentalen Repräsentation von sozialer
Interaktion beeinflussen und in welchem Grade dies geschieht. Aufgrund dieser Studien konnten Biocca und Kollegen das Modell der Networked Minds aufstellen, welches sich in der
Forschung zur sozialen Präsenz zum Standardmodell entwickelt hat.
Das Modell der Networked Minds besteht aus drei Stufen und dazugehörigen Messinstrumenten. Die erste Stufe wird Wahrnehmungstufe genannt und beinhaltet die räumliche Präsenz
der Darstellung des Anderen. Hier geht es um die bewusste Erfassung einer anderen computervermittelten Person. Gemessen werden kann diese Kopräsenz über Selbstbeobachtung,
Augenfixationen durch Blickverfolgung, Proxemisches Verhalten, wie Annäherung und Entfernen, sowie durch physiologische Messungen der Aufregung.
Die zweite Stufe des Modells, die subjektive Stufe, ist der Zugriff auf das Verhalten des Anderen. Zur reinen Wahrnehmung kommt hinzu, dass die Technologie den Anderen zugänglich
57
macht. Dazu gehört die Beobachtbarkeit der Aufmerksamkeit und des emotionalen Zustands
sowie gegenseitiges Verständnis und Verhaltensinteraktionen. Messbar wird diese Stufe durch
verfolgen der Aufmerksamkeit. Weiterhin ist die Wechselseitigkeit der Kommunikation durch
das sogenannte „turn-taking“, das abwechselnde Sprechen, charakterisiert und auch messbar.
Die dritte Stufe nennt Biocca intersubjektive Stufe. Die Erweiterung ist hier die gegenseitige
soziale Präsenz. Die Kommunikation zwischen dem Nutzer und anderen computervermittelten Personen wird wechselseitig. Auf dieser Stufe wird sich damit beschäftigt, wie stark
soziale Präsenz beidseitig wahrgenommen und inwieweit die beidseitige Wahrnehmung der
sozialen Präsenz auch kommuniziert werden kann. Diese Stufe wird dadurch erkannt, dass
im Nachhinein die Teilnehmer über die gleiche Erfahrung bezüglich der sozialen Präsenz berichten.
Den Einfluss von Technologien auf die soziale Präsenz kann nun über die Networked Minds
Theorie gemessen werden. Den Teilnehmern werden unterschiedliche Bildschirme, Avatare
und Animationen vorgeführt und mit den verschiedenen Messinstrumenten lässt sich die Stufe
der sozialen Präsenz bestimmen. Die Networked Minds Theorie ist in Grafik 4.3 mit Beispielen
aus einem Fragebogen abgebildet.
(a) Networked Minds Modell
(b) Networked Minds Einflussfaktoren
Abbildung 4.3: Theorie der Networked Minds nach [BH02]
Eine Mehrzahl an Studien benutzt die Networked Minds Theorie, um das Phänomen der sozialen Präsenz zu erkunden. Hauber untersucht in [HRH+ 05] den Grad der sozialen Präsenz
in zwei- und dreidimensionalen Videokonferenzen. Er vergleicht diese mit dem Gold-Standard
der sozialen Präsenz, der Angesicht-zu-Angesicht-Kommunikation. Er konnte zwei wichtige
Hypothesen nachweisen. Die erste, dass Angesicht-zu-Angesicht wirklich der Standard ist,
an dem sich gemessen werden muss. Die zweite Hypothese stellt heraus, dass dreidimensionale Videokonferenzen die soziale Präsenz gegenüber zweidimensionalen Videokonferenzen
erhöhen. In der Grafik 4.4 sind die Ergebnisse der Studie aufgezeigt. Der Unterschied zwischen den Videokonferenzsystem lag allein in einer räumlichen Anordnung, um die Proxemik
abzubilden. Im zweidimensionalen Fall wurden die Videostreams übereinander angeordnet,
58
4.2 Erlebnistiefe
während sie im dreidimensionalen Fall im Raum verteilt wurden.
Abbildung 4.4: Vergleich sozialer Präsenz
Weitere Studien untersuchen Faktoren und Technologien und deren Einfluss auf die soziale Präsenz. Dabei fallen vor allem Untersuchungen zu nonverbaler Kommunikation auf. So
konnte Bente in einer Studie zu sozialer Präsenz und Vertrauen aufzeigen, dass Avatare
die räumliche Präsenz deutlich besser unterstützen, als Audio- und Videokommunikation.
Darauf aufbauend hat Bente in [BEA07] den Einfluss von Augenkontakt in virtuellen Umgebungen erforscht, um festzustellen, dass mit der soziale Präsenz auf der zweiten Stufe,
der Zugang auf das Verhalten des Anderen möglich wird. Parallel hat Bailenson in [BYMS06]
untersucht, dass Gesichtsausdrücke von Avataren und die damit verbundene Übertragung von
Emotionshinweisen, die soziale Präsenz weiter erhöhen. Die Faktoren des Augenkontaktes,
der nonverbalen Kommunikation und der Repräsentation durch Avatare haben offensichtlich
großen Einfluss auf die soziale Präsenz in Virtuellen Welten.
4.2.3 Selbstwahrnehmung
Selbstwahrnehmung ist ein Zustand der nach innen gerichteten Konzentration, um das Selbst
zu untersuchen [FSB75]. Selbstwahrnehmung ermöglicht es Personen, ihre persönlichen Normen, Überzeugungen, Ansichten abzurufen [DS02] und emotionale Zustände ihrer Selbst und
59
Anderer zu erkennen [Sch76]. Im Rahmen der computergestützten Kommunikation hat sich
gezeigt, dass hohe Selbstwahrnehmung auch die Auskunft über sich selbst erhöht [Joi01], was
wiederum zu höherer Präzision in der zwischenmenschlichen Kommunikation führt [YF06].
Angesichts der einflussreichen Rolle der Selbstwahrnehmung in der computergestützten Kommunikation ist es wichtig zu untersuchen, welche Faktoren Einfluss auf die Selbstwahrnehmung haben.
Nach Scheier ist der am weitesten verbreitete Ansatz die Selbstwahrnehmung zu verbessern,
den Fokus auf das Aussehen zu lenken, wie beispielsweise über einen Spiegel. Vasalou et al.
schlagen daher vor das Äußere eines Avatars an das Äußere des Nutzers anzupassen.Über die
Eigenrepräsentation soll nach Vasalou die Selbstwahrnehmung verbessert werden [VJP07].
Um diese These zu unterstützen, haben Vasalou et al. eine Studie unternommen, in der
Nutzer mit Avataren kommunizieren sollten. Eine Gruppe benutzte dabei Avatare welche ihnen ähnlich sahen, während die Kontrollgruppe mit Avataren kommunizierte, die sie nicht
repräsentierten. Dabei konnte festgestellt werden, dass die Teilnehmer mit Eigenrepräsentation eine erhöhte Selbstwahrnehmung gegenüber den Teilnehmern ohne Eigenrepräsentation
erlangten.
Die Studie von Vasalou lässt darauf schliessen, dass Eigenrepräsentation die Selbstwahrnehmung in Virtuellen Welten steigert und damit dem Erfolg virtueller Kommunikation zuträgt.
In Virtuellen Welten wie Second Life lässt sich dagegen beobachten, wie wiederum kaum ein
Avatar dem eigenen Aussehen ähnelt. Obwohl hier eine große Freiheit bei der Gestaltung der
Avatare zugelassen wird, werden sie anderweitig gestaltet.
4.2.4 Identifikation
In dem Abschnitt 4.2.3 zur Selbstwahrnehmung hat sich gezeigt, dass Eigenrepräsentation
in Virtuellen Welten die Präzision von Kommunikation erhöhen kann, jedoch Teilnehmer ihre
Charaktere oftmals nicht dem eigenen Aussehen nach gestalten. Jensen untersucht in [Jen09]
wie Menschen ihren Avatar in Virtuellen Welten interpretieren, wenn sie kommunizieren oder
interagieren. Aus der Motivation sich in Virtuelle Welten zu begeben, lässt sich die Gestaltung
der Avatare nachvollziehen. Jensen bezieht sechs Punkt der Motivation aus den Studien von
Yee [Yee06]. Die Faktoren sind Beziehungen, Manipulation, Absorption, Immersion, Eskapismus und Errungenschaften. Nach Yee haben Teilnehmer mit hoher Punktzahl in dem Bereich
Beziehungen das Bedürfnis, Kontakt mit anderen Spielern herzustellen, sich Auszutauschen
und zu Unterstützen. Teilnehmer mit einer hohen Punktzahl beim Manipulationsfaktor neigen
dazu, andere Spieler zum Objekt ihrer Manipulation zu machen. Sie genießen es zu bluffen,
andere zu ärgern und zu beherrschen. Wenn Teilnehmer der Immersion und Absorption zugeordnet werden konnten, war es für diese wichtig, sich in eine Fantasiewelt zu begeben
60
4.3 Bewertungskriterien
die möglichst fern von der realen Welt liegt. Diese Teilnehmer genießen eine gute Hintergrundgeschichte und erstellen Avatare mit eigener Geschichte, die in diese Welt passen. Eine
hohe Punktzahl in Eskapismus indiziert, das Teilnehmer Virtuelle Welten benutzen, um dem
Stress und Problemen ihres realen Lebens zu entkommen. Teilnehmer des letzten Faktors,
der Errungenschaften, wollen möglichst mächtig werden und ihren Status in Virtuellen Welten aufzeigen.
In den meisten Fällen kommen mehrere Faktoren mit verschiedenen Gewichtungen zusammen
vor. Jensen fügt hier noch die Kreativität und Erkundungsmotivation hinzu. Danach werden
Avatare mit bestimmten Eigenschaften erstellt, weil es in der realen Welt nicht möglich ist,
oder weil sich die Teilnehmer nach bestimmter Art und Weise ausdrücken wollen.
Alle diese Motivationsfaktoren führen dazu, dass Avatare nach Situation und Motivation,
in die Virtuelle Welt einzutauchen, gestaltet und ausgeprägt werden. Je nachdem ist es den
Nutzern oder Aktoren hinter den Avataren möglich, sich mit dem Avatar identifizieren. Jensen
konnte zeigen, dass der Grad der Identifikation mit dem Grad dem persönlichen Ausarbeitung
von Geschichte und Gestalt der Avatare korreliert. Ein guter Richtwert ist die investierte
Zeit. Dabei zählen sowohl die gemeinsam bestandenen Abenteuer, als auch die investierte
Zeit beim Shoppen und Gestalten des Avatars.
Aufbauend auf der ausführlichen Analyse der Kommunikationskanäle und der Faktoren, welche
Erlebnistiefe in Virtuellen Welten beeinflussen, ist es möglich einen Katalog verschiedener Bewertungskriterien in Bezug auf den Kommunikationserfolg zu erstellen. Aus den Grundlagen
und der Analyse der vorliegenden Arbeit lässt sich schliessen, dass zwei Ebenen der Bewertung virtueller Kommunikation existeren. Auf der einen Seite steht der technische Rahmen,
der einer computervermittelten Kommunikation zur Verfügung steht. Je nach technischem
Rahmen, fällt die darin vorgehende Kommunikation mehr oder weniger erfolgreich aus. Auf
der anderen Seite stehen die psychologischen Effekte die zur Erlebnistiefe führen. Die Technologie hat direkten Einfluss auf den Wirkungsgrad psychologischer Effekte in einer Virtuellen
Welt. Kann ihnen die zugrundeliegende Technologien zugeordnet werden, lässt sich daraus
eine Aussage über den Erfolg von Kommunikation entwickeln.
Es gibt zwei Bewertungsmodi in diesen Kriterien. Einige Kriterien haben eine einfache vorhanden - nicht vorhanden Bewertung. Die zweite Gruppe an Bewertungskriterien wird in 5
Schritte unterteilt: keine, gering, mittel, hoch, sehr hoch. Dabei geht das Bewertungskontinuum von „nicht berücksichtigt“ bis „entspricht der Angesicht-zu-Angesicht-Kommunikation“.
61
4.3.1 Technologien
Zuerst wird der technologische Rahmen Virtueller Welten unterteilt. Dabei wird auf dem
Kommunikationsmodell aus Kapitel 2.2 aufgebaut und in drei Kategorien unterteilt. Es gibt
Eingabetechnologien, also die Schnittstellen, welche es dem Sender erlauben Informationen
zu senden und Ausgabemedien, das sind jene Schnittstellen, über welche der Empfänger diese
Informationen wahrnehmen kann. Einer dritten Kategorie gehören die Elemente an, welche
es dem Nutzer erlauben, ihren Repräsentanten nach eigenen Vorstellungen anzupassen, ob
als Eigenrepräsentation oder durch andere Visualisierungen.
Eingabetechnologien
Unter die Kategorie Eingabetechnologie, fallen die Eingabegeräte. Virtuelle Welten werden
im klassischen Sinne durch Maus und Tastatur gesteuert. Vorstellbar sind jedoch auch andere
Ansätze zur Steuerung virtueller Umgebungen. So könnte auch eine Space Maus, eine Maus
für die Navigation im 3D Raum, benutzt werden oder eben die aktuelle Position eines Nutzers
über einen Kompass und ein GPS-Gerät. Weitere Möglichkeiten sind das Navigieren und
Orientieren über Blickrichtungsverfolgung, Multitouchgesten oder Joysticks. Es existieren
viele Eingabegeräte für den Computer und nahezu jedes kann dazu benutzt werden, Virtuelle
Welten zu erkunden. In dieser Bewertung wird die Eingabe in seiner Gesamtheit untersucht.
Um den Nutzen bezüglich der virtuellen Kommunikation zu ermitteln, wird sich auf drei
Eigenschaften der Eingabe bezogen:
• Modalitäten der Eingabe bezieht sich auf die Modalitäten, die von der Eingabe aufgenommen werden. Hierunter fallen die Kommunikationsmodalitäten visuell, auditiv,
olfaktorisch, gustatorisch, taktil und thermal. Eine Kamera mit Mikrofon unterstützt
zum Beispiel den visuellen und auditiven Kommunikationskanal.
• Granularität der Modalität beschreibt die Auflösung der aufgenommenen Informationen für eine bestimmte Modalität. Die Granularität ist damit ein Maß für die Komplettheit der Informationsabbildung durch ein Eingabegerät, basierend auf der Analyse
in Kapitel 4.1. Eine Spracheingabe kann zum Beispiel die Stimme eines Nutzers aufnehmen und als Text in die Virtuelle Welt übertragen, was im auditiven Kommuninationskanal einer geringen Granularität entpsricht, da jegliche paraverbale Informationen
herausgefiltert werden.
• Freiheitsgrad der Eingabe steht für die Einschränkungen, welche das Eingabegerät
dem Nutzer auferlegt. Gemessen wird die Einschränkung in Abhängigkeit von der Einschränkung einer Angesicht-zu-Angesicht-Kommunikation. So hat zum Beispiel Augenkontakt in der Angesicht-zu-Angesicht-Kommunikation keine Einschränkungen, während ein Eye Tracker, der auf dem Kopf montiert ist eine hohe Einschränkung, durch
62
das Gewicht der Montur und der Kamera direkt im Gesicht hat. Ein Eye Tracker der
auf einer Infrarotkamera basiert, welche direkt unter dem Monitor installiert ist hat
dagegen einen hohen Freiheitsgrad, da kaum Behinderung vorhanden sind.
Ausgabemedien
In der Bewertungskategorie der Ausgabemedien wird der Schwerpunkt auf die Visualisierung
gelegt. Wie in der vorliegenden Arbeit gezeigt, gibt es neben der Visualisierung Untersuchungen zu auditivem und haptischem sowie thermalem Feedback. Da sich die Diplomarbeit
mit der nonverbalen Kommunikation in Virtuellen Welten beschäftigt, sind die paraverbalen
Informationen zwar für die Eingabe von Bedeutung, für die Ausgabe wird dagegen nur der
Vollständigkeit halber die Audiounterstützung als Kriterium mit untersucht und alle weiteren
Kommunikationskanäle vernachlässigt. Es ergeben sich fünf Eigenschaften von Relevanz:
• Immersion der Ausgabe schließt den Kreis zur Analyse von Milgram et al. aus [MK94].
Milgram weißt dort nach, dass die Präsenz einer Virtuellen Welt direkt von der Auflösung und Größe des Visualisierungsmediums abhängt. Die subjektive Größe ist in diesem
Falle entscheidend. Das Kontinuum des Ausgabemediums reicht nach Milgram von einem Monitor, wobei heutzutage ein Telefondisplay passender ist, bis zu Head Mounted
Displays, welche die Augen umhüllen und wahrnehmungsgetreue Dreidimensionalität
ermöglichen. Sound wurde von Milgram noch vernachlässigt, dient aber genauso dem
Gefühl der Präsenz in Virtuellen Welt. Hier gehen die Möglichkeiten von Monosound
bis zu professionellen dreidimensionalen Beschallungsanlagen.
• Animationsdetail trifft eine Aussage über die Realitätsnähe der für die virtuelle Kommunikation erstellten Animationen. Ein hoher Grad an Animationsdetail ermöglich es,
das unheimliche Tal für Bewegungen zu überschreiten.
• Animationsvielfalt bewertet die Anzahl an Animationen, welche in virtuellen Kommunikation ausgelöst werden können. je mehr Animationen wie Blickrichtung, Aufmerksamkeit, Gestiken, Sitzen etc. einer Kommunikation zur Verfügung stehen, umso höher
wird auch der Erfolg der Kommunikation sein.
• Renderdetail bzw. Modellierdetail steht für das Problem der Abstraktion gegenüber
der Identifikation. Je abstrakter ein Charakter, desto weniger indentifiziert sich ein
Teilnehmer damit. Dies gilt für die Eigenrepräsentation genauso wie für jede andere
Visualisierung über den Avatar (siehe Abschnitt 4.2.4).
• Audiounterstützung als Kriterium ist eine Aussage darüber, ob die virtuelle Kommunikation VoiceChat unterstützt. Wird VoiceChat unterstützt so sind damit auch die
paraverbalen Informationen überliefert.
63
Identifikation
Die dritte Kategorie untersucht die Anpassbarkeit der Charaktere und Avatare. Im Abschnitt
4.2.4 hat sich ergeben, dass nach Jensen mit dem Grad der Anppassbarkeit eines Avatars
sich auch die Identifikation mit diesem erhöht. Je mehr sich ein Nutzer mit seinem Avataren
identifiziert, umso mehr involviert fühlt er sich in die Virtuelle Welt. Einfach ausgedrückt
erhöht die Anpassbarkeit von Avataren die Erlebnistiefe der Nutzer. Identifikation mit dem
Avatar ist zwar bereits ein psycholgisch wichtiger Faktor für die virtuelle Kommunikation, vor
allem im Bezug auf Erlebnistiefe, gehört aber trotzdem zum technischen Rahmen Virtueller
Welten. Es gibt drei Faktoren, die virtuelle Kommunikation unterstützen können:
• Aussehen anpassen steht für die Möglichkeit, das Polygonnetz eines Avatares und
dessen Textur in einer Virtuellen Welt anzupassen. Dieser Faktor hängt von dem Modellierungsdetail und Renderdetail einer Virtuellen Welt ab, aber auch von Editoren für
das Aussehen. Virtuelle Plattformen wie Second Life und Blue Mars besitzen solche
Werkzeuge.
• Kleidung anpassen ist aus dem Blickpunkt der Computergrafik aufwändiger. Unterstützt eine Virtuelle Welt diesen Faktor, ist es möglich, erstellte Kleidung an andere
Avatare zu verkaufen und damit die Identifikation zu erhöhen [Jen09].
• Animationen und Gesten anpassen ermöglicht ein genaueres Bild seines Avatars zu
generieren, vor allem was die nonverbale Kommunikation betrifft. Haltung, Laufstil,
Gestiken und Mimiken sind dabei nur einige Beispiele.
4.3.2 Erlebnistiefe
Im Abschnitt zum technischen Rahmen wurde bereits die Identifikation mit dem Avatar abgehandelt. Zur Erlebnistiefe gehören aber noch die Effekte der Präsenz und sozialen Präsenz
in Virtuellen Welten sowie die kognitive Absorption. Diesen lassen sich bestimmte technische
Grundlagen zuordnen, welche benötigt werden um die jeweiligen Effekte zu erreichen. Der
Zusammenhang zwischen Technik und Effekten der Erlebnistiefe wurde im Abschnitt 4.2
ausgearbeitet.
Präsenz
Präsenz ist das Gefühl „vor Ort zu sein“, in eine virtuellen Raum einzutauchen und das Gegenwärtigkeitsgefühl der realen Welt hinter sich zu lassen. Heidegger brachte Präsenz mit dem
Wahrnehmungs-, Erwartungs- und Aktionsrealismus zusammen. Damit fällt auch kognitive
64
Absorption mit in den Begriff der Präsenz. Um Präsenz zu haben, müssen diese Bewertungskriterien erfüllt werden:
• Die Granularität der Eingabe lässt sich nur abstrakt beschreiben, da es vom Eingabegerät direkt abhängt, inwieweit es Präsenz unterstützen kann. Wichtig für die Präsenz
ist lediglich ein sofortiges Feedback auf die Eingabe. Wie in der realen Welt muss jede
Aktion eine Reaktion auslösen.
• Der Freiheitsgrad der Eingabe oder der Eingabegeräte ist wichtig, um sich in einer
Welt präsent zu fühlen. Er hängt aber vom Eingabgerät selbst ab. Je mehr ein Eingabegerät behindert, umso stärker wird es der Präsenz abträglich sein, da sich der
Nutzer ständig kognitiv damit beschäftigen muss. Mit der Zeit ist es allerdings möglich
die Steuerung über Eingabegeräte so zu automatisieren, dass sie kognitiv in den Hintergrund treten. Diese Automatisierung wird auch durch das Konzept der kognitiven
Absorption beschrieben.
• Für Renderdetail gilt, je näher an der Realität, desto präsenter der Teilnehmer in
der Virtuellen Welt. Schon Milgram konnte dies 1994 nachweisen. In diesem Sinne ist
Fotorealismus das angestrebte Ziel.
• Bei Animationsdetail gilt das selbe wie beim Renderdetail. Je näher die Animationen
realen Bewegungen sind, desto mehr Präsenz für Teilnehnmer. Es sei hier nochmal auf
das unheimliche Tal und Motion Capture im Abschnitt 3.1.3 verwiesen.
• Die Immersion der Ausgabe muss für Sound und Video untersucht werden. Für möglichst hohe Präsenz ist dreidimensionale Soundunterstützung der Virtuellen Welt erstrebenswert, genauso wie 3D-Video.
Soziale Präsenz
Soziale Präsenz steht für die Empfindung „mit anderen zusammen zu sein“. Sie ist das
Moment-zu-Moment Gewahrsein der Kopräsenz eines computervermittelten Anderen und
der Zugänglichkeit dessen psychologischen, emotionalen und intentionalen Zustandes. Soziale Präsenz ist wie Präsenz als Kontinuum anzusehen und geht von der einfachen körperlichen
Anwesenheit bis zur Verhaltensinteraktion1 , wie in Abschnitt 4.2.2 aufgezeigt. Verhaltensrealismus, Augenkontakt und nonverbale Kommunikationshinweise sind dabei die wichtigsten
Konzepte für die Verhaltensinteraktion. Aufbauend auf der Analyse der sozialen Präsenz werden diese Bewertungskriterien gewählt:
1
im englischen from copresence to behavioural engagement
65
• Modalitäten der Eingabe steht für die Modalitäten der Blickverfolgung und der Aufnahme andere nonverbaler Hinweise durch eine Kamera. Um soziale Präsenz erreichen
zu können, muss eine Kamera die zugehörigen Faktoren aufnehmen können.
• Die Granularität der Eingabe stellt sicher, dass die Kamera die nötige Auflösung besitzt um die Blickverfolgung zu ermöglichen. Hier müssen die Augen inklusiver Pupillen
aufgenommen werden können, um eine genaue Blickverfolgung erreichen zu wollen.
• Animationsdetail muss Verhaltensrealistische Animationen gewährleisten. Als Kriterium gilt hier das unheimliche Tal, welches überwunden werden muss um die Wahrnehmung von Bewegungen realistisch zu gestalten.
• Animationsvielfalt wird benötigt um die Vielzahl an nonverbalen Hinweisen der Kommunikation übertragen zu können.
• Identifikation bezieht sich auf die Anpassbarkeit der Avatare. Je individueller die Avatare gestaltet werden können, je mehr wird sich mit den Avataren identifiziert, was
wiederum die Erlebnistiefe und Kommunikation in Virtuellen Welten unterstützt.
• Durch Audiounterstützung, also VoiceChat muss es möglich sein über Sprache zu
kommunizieren.
4.4 Zusammenfassung
Aufbauend auf der Analyse virtueller Kommunikation wurde ein Ansatz zur Bewertung virtueller Kommunikation erstellt. Zuerst wurde erarbeitet, welche Hinweise der Mensch aus
der Angesicht-zu-Angesicht-Kommunikation aufnimmt, beziehungsweise welche Informationen aus welchem Kommunikationskanal entnommen werden können. Dabei hat sich ergeben,
dass vor allem verbale, paraverbale und visuelle nonverbale Hinweise die Kommunikation bestimmen. Olfaktorische und taktile Informationen werden in dieser Arbeit vernachlässigt.
Anschließend wurde auf die Definition von Erlebnistiefe und ihrer verschiedenen Facetten
eingegangen. Präsenz, soziale Präsenz, Selbstwahrnehmung und Identifikation sind psychologische Effekte, die in Virtuellen Welten erwünscht sind. Gerade Spieleentwickler legen ihren
Fokus auf Fließen und Immersion. Speziell für virtuelle Kommunikation sind vor allem die
Effekte Präsenz und soziale Präsenz von Bedeutung, wobei die Identifikation und Selbstwahrnehmung der sozialen Präsenz untergeordnet wird.
Zusammen mit der technischen Analyse aus dem Kapitel 3 wurde ein Bewertungssystem für
virtuelle Kommunikation aufgestellt. Es wurde der technische Rahmen Virtueller Welten über
66
4.4 Zusammenfassung
verschieden Kriterien der Eingabe, Ausgabe und Identifikation abgesteckt, um auf deren Basis
Rückschlüsse auf Präsenz und soziale Präsenz ziehen zu können. Mit diesem Bewertungskatalog ist es möglich mehrere virtuelle Kommunikationen miteinander zu vergleichen und aus
ihm einen relativen Rückschluss auf den Kommunikationserfolg zu ziehen. Die Bewertungskriterien dienen jedoch nicht allein dem Vergleich. Aus den Kriterien ergibt sich auch, wie ein
Konzept für eine erfolgreiche virtuelle Kommunikation aussehen muss. Dieses Konzept wird
im folgenden Kapitel erstellt und daraufhin mit der Analyse des aktuellen Standes virtueller
Kommunikation verglichen.
67
5 Konzept zur Übertragung von
Kommunikation in die Virtualität
In Kapitel 4, der Bewertung virtueller Kommunikation, wurde ein Bewertungssystem für virtuelle Kommunikation aufgestellt. Die Hauptpunkte Präsenz und soziale Präsenz wurden darin,
basierend auf dem technischen Rahmen Virtueller Welten, beschrieben. Dieses Bewertungsystem und die damit verbundenen Analyse, gibt wichtige Anhaltspunkte, wie ein Sytem der
virtuellen Kommunikation gestaltet werden muss. In diesem Kapitel wird ein Konzept erarbeitet, welches mit aktueller Technologie die Angesicht-zu-Angesicht-Kommunikation emulieren
soll. Dabei werdem vor allem die nonverbalen Hinweise der Kommunikation in den Vordergrund gestellt. Verbale und paraverbale Informationen können bereits über VoiceChat und
über den Textchat mit Emoticons ins Virtuelle übertragen werden. Ein nächste wünschenswerter Schritt wäre, bewusste nonverbale Kommunikation zu transportieren. Aus den Studien
im Abschnitt 4.2.2 ergab sich, dass gemeinsame Aufmerksamkeit ein weiterer wichtiger Faktor ist, um Kommunikation erfolgreicher zu gestalten.
Basierend auf dem Konzept wird anschliessend die prototypische Umsetzung dieser Arbeit
vorgestellt. In der Umsetzung soll gezeigt werden, wie bereits mit einfachen technischen
Mitteln große Fortschritte in der virtuellen Kommunikation ermöglicht werden können.
5.1 Beschreibung des Konzeptes
Der Stand der virtuellen Kommunikation wurde in Kapitel 3 aufgearbeitet. Das hier zu entwickelnde Konzept erweitert die Virtualisierung der Kommunikation um den nonverbalen
Aspekt. Als Träger dieser Kommunikation dient der Avatar und wird in erster Linie über
Tastatur und Maus gesteuert. Diese Art der Steuerung virtueller Avatare ist im Vergleich
zu Technologien wie der Cave oder einem Head-Mounted-Displays wenig intuitiv. Es wird
für das Konzept der Anspruch erhoben, an jedem Standard-PC benutzbar zu sein und den
Freiheitsgrad des Nutzers nicht weiter einzuschränken. Große teure Gerätesysteme, sowie
behindernde Eingabgegeräte werden deswegen ausgeschlossen. Es wird davon ausgegangen,
dass ein Computer benutzt wird mit Tastatur, Maus, sowie einem normalen Bildschirm. Mit
69
5 Konzept zur Übertragung von Kommunikation in die Virtualität
der Steuerung über Tastatur und Maus sind Benutzer Virtueller Welten bereits vertraut, und
es wird vorrausgesetzt, dass sie diese Art der Steuerung beherrschen.
In die Realisierung des hier vorgestellten nonverbalen Kommunikationskonzeptes sollen Aspekte aus visuellem (Aufmerksamkeit, Gestik, Mimik) und auditivem (Sprache, Tonlage, Klangfarbe) Kommunikationskanal zusammengeführt werden. Das Konzept wird in drei Bereiche
strukturiert, welche sich an dem Aufbau von Kommunikation aus Abschnitt 2.2.1 orientieren.
Dazu werden zunächst die Kommunikationshinweise des Senders über Eingabekanäle erfasst,
diese dann vom Computer interpretiert, um sie letztendlich durch den Avatar als Animation
zum Empfänger zu transportieren.
5.1.1 Eingabegeräte
Neben Tastatur und Maus, kommt ein weiteres Eingabegerät hinzu. Eine Infrarot-Kamera
welche mit einem Mikrofon ausgestattet ist, soll den Nutzer während der Kommunikation
visuell und auditiv aufnehmen. Diese Informationen werden vom Computer verarbeitet und
analysiert. Die Kamera wird neben dem Monitor positioniert und kann die Augen sowie das
Porträt eines Nutzers aufnehmen. Der Freiheitsgrad des Nutzers wird nicht eingeschränkt
und stört auch nicht seine Präsenz. Für die Blickrichtungsverfolgung eignet sich das Infrarotspektrum, da die Retina des Auges Infrarotlicht reflektiert. Dies führt zu einer technisch
einfachen Erkennung und Verfolgung der Pupille.
Spracherkennung
Als Eingabegerät steht durch die Webcam weiterhin ein Mikrofon zur Verfügung. Das Mikrofon ist dafür zuständig die verbalen und paraverbalen Kommunikationshinweise des Nutzers
aufzunehmen und direkt in die Virtuelle Welt zu übertragen. Im Rahmen eines Voicechats enspricht die verbale Kommunikation dem Stand einer Angesicht-zu-Angesicht-Kommunikation.
Aus den paraverbalen Hinweisen eines Sprechers lassen sich Schlüsse auf den Gemütszustand
ziehen. Über die Stimmenanalyse1 wird ein emotionales Profil des Sprechers erstellt, um dann
auf seinen aktuellen emotionalen Zustand zu schliessen. Es werden die Klangfarbe und die
Klangeigenschaften einer Stimme analysiert und bestimmten Emotionen zugeordnet.
Die Stimmenanalyse erhöht die Selbstwahrnehmung des Nutzers und liefert ein Indiz für die
Intention des Sprechers. Kann eine Emotion aus der Stimmenanalyse gewonnen werden, so
1
weiterführender Link: http://power2voice.emotionalysis.com/de/
70
wird diese Information in den aktuellen Animationszustand eines Avatars mit eingerechnet.
Weiterhin können durch die Stimmenanalyse Phoneme des Gesagten erkannt werden, um
eine Lippensynchronisation von Nutzer und Avatar zu realisieren.
Bildanalyse
Neben den paraverbalen Hinweisen aus der Stimmenanalyse, liefert auch die Bildanalyse Informationen für die Steuerung von Avataren. Mit dem Porträtbild eines Nutzers lassen sich, im
Zusammenhang mit dem Infrafrotspektrum, verschiedene nonverbale Informationen gewinnen. Durch Erkennen und Verfolgen der Augen, wird die Blickrichtung des Nutzers bestimmt.
Ist die Blickrichtung des Nutzers bekannt, kann der Fokus seiner Aufmerksamkeit berechnet
werden. Es lässt sich in Erfahrung bringen, wo der Nutzer hinschaut, wen er anschaut und
ob er überhaupt aufmerksam ist.
Neben der Blickrichtung lässt sich auch der Kopf des Nutzers erkennen und verfolgen. Hieraus
kann geschlussfolgert werden, ob überhaupt ein Nutzer vor der Webcam sitzt, und wie der
Kopf bewegt wird. Daraus lassen sich die Kommunikationsintentionen Zustimmung und Ablehnung ablesen. So kann zum Beispiel aus einer Schüttelgeste des Kopfes eine ablehnende
Haltung des Avatars und aus einer Nickgeste eine zustimmende interpretiert werden.
Weitere Informationen werden aus der Mimik des Nutzers gelesen. Die Gesichtsausdruckanalyse ermöglicht Hinweise auf spontane Emotionen und Gesten, welche über die Mimik
gesteuert werden. So sind etwa die Ausdrücke Traurigkeit, Überraschung, Angst, Glücklichkeit und Neutralität durch Algorithmen zu 88% zuordenbar (vgl. [Sze10], S. 126).
Als letztes sollen bewusste Gesten zur Steuerung des Avatars erkannt werden. Über den
optischen Fluss des Bildes und durch das Verfolgen von schnellen Wischgesten, werden Zeigegesten und Gestikulationen detektiert. Dies ist vor allem für Präsentationen sinnvoll, da
wichtige nonverbale Hinweise über Gestikulationen und Zeigegesten steuerbar werden.
5.1.2 Interpretation
Die Eingabegeräte Tastatur, Maus, Kamera und Mikrofon ergeben gehaltvolle Informationen
zum nonverbalen Aspekt der virtuellen Kommunikation. Diese Informationen müssen über ein
Entscheidungssystem gebündelt und interpretiert werden. Aus der Menge der Informationen
zu Emotion,Gestik und Mimik des Nutzers wird die Kommunikationsintention berechnet.
71
Interaktionsklassen
Abhängig vom Interaktionszustand ist auch die Interpretation bestimmter Eingabeinformation. Schüttelt zum Beispiel ein Nutzer den Kopf, während er sich in einer Konversation
befindet, deutet dies auf Ablehnung hin. Wird der Kopf hingegen geschüttelt, während der
Nutzer alleine ist, kann dies ein Zeichen von Traurigkeit bedeuten. Je nachdem ob sich der
Nutzer in einer Konversation befindet, sich einer annähert oder alleine steht, müssen die
Informationen unterschiedlich interpretiert werden.
Kommunikationsintention
Ist der Interaktionszustand definiert, muss ein Algorithmus die Intention der Kommunikation bestimmen. Im Speziellen ist dies für die Gesten- und Mimikerkennung von Bedeutung.
Bereits durch unterschiedliche Lokalisierung des Nutzers kann eine Gestik oder Mimik etwas
Verschiedenes bedeuten. Während das Kopfnicken in Deutschland allgemein als Zustimmung
interpretiert wird, gibt es beispielsweise Orte in Griechenland, wo Kopfnicken Ablehnung bedeuten kann.
5.1.3 Visualisierung
Aus der Interpretation der Eingabegeräte werden Gesten, Emotionen, Mimiken zu Kommunikationsintentionen kombiniert. Diese Intentionen gilt es dann auf dem Avatar zu visualisieren.
Lippensynchronisation
Aus der Stimmenanalyse lassen sich dem Gesprochenen Phoneme zuordnen. Diesen Phonemen wiederum können Viseme, also Mundstellungen, zugeordnet werden. Die Stimmenanalyse
erkennt in Echtzeit Phoneme, welche dann als Viseme auf den Avatar übertragen werden.
Durch die Lippensynchronisation lässt sich ein neuer Grad an Verhaltensrealismus generieren,
da nunmehr das Gesprochene mit den Mundstellungen des Avatars übereinstimmt.
Gesten
Es gibt mehrere Wege, um Gesten zu erkennen und auf einen Avatar zu übertragen. Der
optimale Weg ist die Eins-zu-Eins-Übertragung der Geste auf das Polygonnetz des Avatars.
72
Die Server-Client-Architektur ermöglicht jedoch nur eine symbolhafte Übertragung der Animationen (vgl. Kapitel 3.1.2).
Eine weitere Variante ist die Analyse der Geste aufgrund ihrer Intention. Ein Algorithmus
muss die Geste verfolgen und darauf basierend eine Gestenintention berechnen. Weiß der
Nutzer welche Gesten ihm zur Verfügung stehen, kann er damit bewusst die Animationen
des Avatars steuern. Der Anzahl von Gesten soll hier keine Grenzen gesetzt werden. Je mehr
Gesten dem Nutzer zur Verfügung stehen, umso differenzierter lässt sich nonverbale Kommunikation übertragen, so zum Beispiel Zeigegesten, welche den Avatar auf ein bestimmtes
Objekt zeigen lassen, oder etwa Gesten, wie Hände über dem Kopf schlagen oder aufgeregtes
diskutieren. Weitere Gesten sind Kopfnicken und -schütteln für Zustimmung und Ablehnung
des Kommunikationspartners.
Mimik
Basierend auf der Mimikanalyse erkennt der Computer, welche Emotionen der Aufgenommene gerade durchlebt und welche grundlegende Stimmung dem Nutzer zugeordnet werden
kann. Darauf basierend können die Morpher des Gesichts, beschrieben in Kapitel 3.1.2, den
Emotionen und Stimmungen angepasst werden. Durch genügend Morpher für die Ausdrücke
überrascht, traurig, angeekelt, glücklich, wütend und ängstlich können typische emotionale
Gesichtsausdrücke abgedeckt werden.
Zur Mimik gehören allerdings noch subtilere Ausdrücke, wie Augenbrauen hochziehen, welche
zum Beispiel auf mangelndes Zutrauen in einer Kommunikation schliessen lassen. Durch die
mangelnde Eindeutigkeit der Denotationen (vgl. Kapitel 4.1.2) können solche Mimikhinweise,
die von dem individuellen Nutzer abhängig sind, nicht standardisiert werden. Denkbar wäre
ein System, welches sich an den Nutzer anpasst, um derartige Hinweise zu erkennen. Dies
liegt allerdings außerhalb des Fokus dieser Arbeit.
Aufmerksamkeit
Es gibt drei Wege um die Aufmerksamkeit des Nutzers zu bestimmen. In aktuellen Umsetzungen wird gewartet, bis eine bestimmte Zeit lang keine Eingaben durch Tastatur oder Maus
betätigt wurden, um dann den Nutzer in den Zustand „abwesend“ zu versetzen. Durch die
Bildanalyse kann der Kopf eines Nutzers verfolgt werden. Ist ein Kopf oder ein Gesicht im
Bild zu erkennen, sitz ein Nutzer vor dem Computer. Der schnellste Weg, die Aufmerksamkeit des Nutzers festzustellen, erlaubt die Blickrichtungsverfolgung der Augen. Hiermit kann
bestimmt werden, ob der Nutzer auf den Computer schaut oder nicht um dann sofort den
Animationszustand des Avatars darauf anzupassen.
73
Die Blickrichtungsverfolgung erlaubt weiterhin, virtuell Augenkontakt herzustellen. Dank dieser Technologie kann verfolgt werden, ob der Nutzer einen anderen Charakter anschaut.
Dieses kommunikative Feedback kann auf den Avatar übertragen werden, sodass er dem
anderen Charakter in die Augen schaut. Die Blickrichtungsverfolgung erhöht die Präzision
computervermittelter Kommunikation und den Grad der sozialen Präsenz.
5.1.4 Bewertung
Aufbauend auf den Bewertungskriterien dieser Arbeit, kann der Stand Virtueller Welten mit
dem erstellten Konzept verglichen werden.
Modalität der Eingabe
Freiheitsgrad der Eingabe
Renderdetail
Animationsdetail
Immersion der Ausgabe
Granularität der Eingabe
Animationsvielfalt
Identifikation
Konzept
Mikrofon,
Videokamera,
Tastatur, Maus
Textchat über die Tastatur,
Sprache über das Mikrofon,
freie nonverbale Steuerung
High-DefinitionRasterisierung mit Transparenz und Shadern
Abhängig vom Verfahren
der Animationserstellung
Abhängig vom Computer
des Nutzers
des Nutzers
Abhängig von den integrierten Animationszuständen: normalerweise Untätig, Laufen, Gehen, Fliege,
Springen
Avataranpassungen
Textur, Animation
Aussehen möglich
von
und
Virtuelle Welt
Mikrofon, Tastatur, Maus
Textchat über die Tastatur,
Sprache über das Mikrofon,
nonverbale Steuerung über
Tastatur
High-DefinitionRasterisierung mit Transparenz und Shadern
Abhängig vom Verfahren
der Animationserstellung
des Nutzers
des Nutzers
neben
den
StandardAnimationszuständen
wurden
die
Zustände:
Zustimmung, Ablehnung,
Lippensnychronisierung,
Aufmerksamkeit und Mimik
zugefügt
Avataranpassungen
von
Textur, Animation und
Aussehen möglich
Tabelle 5.1: Vergleich Konzept und Analyse
Durch die Tabelle wird offensichtlicht, dass sich die Faktoren der Präsenz weitesgehend gleichen. Bei Faktoren der sozialen Präsenz unterscheiden sich hauptsächlich die Animationsvielfalt und die Modalität der Eingabe. Durch die Hinzunahme einer Kamera und die damit
verbundene Differenzierung in der nonverbalen Kommunikation, ist zu erwarten, dass sich
74
5.2 Prototypische Umsetzung
die soziale Präsenz von Nutzern in Virtuellen Welten verbessern, wird das erstellte Konzept
implementiert.
Das in Kapitel 5.1 erstellte umfassende Konzept der Integration nonverbaler Kommunikation
in die Virtuellen Welten wurde in dieser Diplomarbeit auch praktisch umgesetzt. Dabei musste
auf das Fehlen einer Infrarotkamera Rücksicht genommen werden, denn nicht an jedem PC
können Infrarotkameras vorrausgesetzt werden. Kameras hingegen werden standardmäßig in
Laptops eingebaut, um Videochat zu ermöglichen. Diese sind aber noch nicht hochauflösend
genug, um Algorithmen zur Blickverfolgung zu implementieren. Desweiteren erfolgte der
Verzicht auf die Einbeziehung umfangreicher Lernalgorithmen. In der Umsetzung wird nur mit
bereits angelernten Klassifizierern gearbeitet und die Gesichtsausdrucks- und Stimmenanalyse
in der softwaretechnischen Realisierung nicht umgesetzt. Die Umsetzung fokussiert sich allein
auf den Machbarkeitsnachweis des Konzeptes.
Die praktische Umsetzung verbindet die Bildanalyse mit der Tonsignalerkennung. Die Teile
des Konzeptes, die in der Diplomarbeit umgesetzt wurden, sind die Gesichtserkennung, die
Gesichtsverfolgung, sowie die Gesten- und Tonsignalerkennung. Jene dienen der Wahnehmung nonverbaler Hinweise des Senders. Aufbauend darauf erfolgt die Zuordnung dieser
Kommunikationsaspekte durch ein Interpretationssystem.
Anschliessend wird die Kommunikationsintention auf vorher definierte Animationszustände
des Avatars übersetzt. Das Polygonnetz des Avatars ist frei erhältlich. Der Autor hat das
Skelettsystem des Avatars erstellt und die Animationen auf Grundlage von eigenen experimentell gewonnenen Motion-Capture-Daten generiert. Zusätzlich wurde eine Gesichtstextur
des Autors erstellt, um den Effekt der Eigenrepräsentation zu erreichen und die Selbstwahrnehmung zu erhöhen.
Die Ergebnisse der Umsetzungen sind auf der beiliegenden CD zu finden. Hierzu zählen der
Source-Code der prototypischen Umsetzung mit Avataranimationen, der Source-Code zur
Gesichtserkennung und -verfolgung und die entsprechenden kompilierten Programme in der
64 Bit Version. Desweiteren ist der Avatar mit Skelett, Textur und Animationen gespeichert,
sowie die Motion-Capture-Daten und die Videos der Motion-Capture-Aufnahmen.
5.2.1 Gesichtserkennung
Der verwendete Algorithmus für die Gesichterkennung ist der Viola-Jones Algorithmus aus
[VJ02]. Er zeichnet sich durch vier Eigenschaften aus: einfache rechteckige Merkmale, ein
75
Gradientenbild für schnelle Merkmalserkennung, den Ada-Boost Lernalgorithmus und eine
kaskadierte Klassifizierung, um möglichst viele Merkmale effizient zu verbinden. Die Merkmale, die Viola und Jones benutzen, nennen sich Haar-Merkmale und basieren auf HaarWavelets. Haar-Wavelets sind Funktionen mit einem kleinen und einem hohen Interval. In den
zwei Dimensionen der Bildverarbeitung besteht eine Rechteckswelle aus aneinander grenzenden Rechtecken mit abwechselnd hellen und dunklen Bereichen, wie in der Abbildung 5.1 zu
sehen ist. Im Viola-Jones Algorithmus werden Haar Wavelets nicht direkt benutzt, sondern
auf Haar-ähnliche Merkmale abstrahiert. Diese sind Rechteckskombinationen, welche sich
besser für Aufgaben zur visuellen Wahrnehmung eignen.
Um Haar-ähnliche Merkmale im Bild zu finden, werden die Helligkeitswerte zweier nebeneinander liegender Rechtecke gemittelt und dann voneinander subtrahiert. Liegt die Differenz
über einem Schwellenwert, der während des Lernens gesetzt wurde, ist ein Merkmal gefunden. Um die Präsenz der Haar-Merkmale an unterschiedlichen Orten und über unterschiedlich
großen Rechtecken im Bild zu finden, müssen hunderte dieser Tests pro Bild gemacht werden. Damit dies effizient geschehen kann, haben Viola und Jones eine Technik benutzt, die
Gradientenbild heisst. Gradient meint hier das Addieren kleiner Bildeinheiten, also die Helligkeitswerte der Pixel. Der Gradialwert bestimmt sich aus der Summe aller Helligkeitswerte
über und links von dem aktuellen Pixel. Um dann den Durchschnitt dieses Rechteckes zu
bekommen, muss der aufaddierte Wert durch die Fläche des Rechteckes dividert werden.
Abbildung 5.1: Verwendete Merkmale im Viola-Jones-Algorithmus
Um das spezifische Haar-Merkmal zu finden und den richtigen Schwellwert zu setzen, benutzen Viola und Jones eine Maschninenlernmethode, die AdaBoost genannt wird. AdaBoost
kombiniert mehrere schwache Klassifizierer, um einen starken Klassifizierer zu generieren.
Schwach bedeutet in diesem Zusammenhang, dass die Antwort des Klassifizierers nur ein wenig öfter die richtige Antwort trifft, als ein zufälliges Raten sie treffen würde. Der Trick ist es,
viele dieser schwachen Klassifizierer zusammen zu schliessen, um dann einen starken Klassifizierer zu bilden. Jede schwache Entscheidung drückt die Gesamtentscheidung ein Stück mehr
in die richtige Richtung. AdaBosst sucht mehrere dieser schwachen Klassifikatoren aus und
wichtet sie, sodass die gewichtete Kombination der schwachen Klassifizierer einen starken
76
Klassifizierer ergeben. Viola und Jones verbinden zahlreiche AdaBoost Klassifizierer zu einer
Filterkette zusammen. Besteht eine Region jeden Klassifizierer dieser Filterkette, wird sie als
Gesicht erkannt. Ist dies nicht der Fall, wird die Region ignoriert. Viola und Jones nennen
diese Filterkette eine kaskadierte Klassifizierung.
In dieser Diplomarbeit wurden zwei AdaBoost Klassifizierer benutzt. Zum Einen ist dies der
„Frontal Face Detector“ von Rainer Lienhart, welcher aus 20 mal 20 schwachen Klassifizieren
gebildet wird. Der zweite AdaBoost Klassifizierer ist der „Left Eye Detector“ der University of
Las Palmas in Gran Canaria aus [CSDSHSLN07]. In der Abbildung 5.2 sind beide Klassifizierer
erfolgreich und konnten ein Gesicht und das linke Auge erkennen.
Abbildung 5.2: Beispiel Gesichtserkennung
5.2.2 Gesichtsverfolgung
Nachdem ein Gesicht im Kamerabild gefunden wurde, soll dieses Gesicht verfolgt werden.
Hierfür wird der Continuously Adaptive Mean Shift Algorithmus, kurz Cam-Shift-Algorithmus,
aufbauend auf dem Mean-Shift-Algorithmus aus [CM02], benutzt.
Der Cam-Shift-Algorithmus besteht aus mehreren Schritten. Zunächst wird ein Farbhistogramm für das Rechteck erstellt, das das Gesicht beinhaltet, wobei für jeden Farbwert die
Anzahl der Pixel aufsummiert werden, welche diesen Farbwert besitzen. Daraus ergibt sich
eine Tabelle mit Häufigkeiten von Farbwerten, welche auch als Balkendiagramm dargestellt
werden können. In Abbildung 5.3(a) ist ein solches Histogramm gezeigt. Bei dem Cam-ShiftAlgorithmus wird der HSV-Farbraum benutzt, da sich der Farbwert (Hue) besonders zur
Verfolgung von Gesichtern eignet. Im Beispiel der Abbildung 5.3(a) ist der blaue Farbwert
am häufigsten und danach konnt ein eher lilaner Farbwert.
77
Dieses Histogramm wird nur am Anfang der Gesichtsverfolgung erstellt. Es ist ein Art Stempel
für die Farbverteilung des Gesichtes. Hier ergeben sich auch erste Schwächen des Algorithmus.
Ändert sich der Farbwert des Bildes, durch neue Lichtverhältnisse zum Beispiel, stimmt das
Histogramm nicht mehr mit der Farbverteilung des Gesichtes überein.
Ist das Histogramm für das Gesicht bestimmt, wird jedem Pixel in den folgenden Bilder
ein Wahrscheinlichkeitswert zugeordnet. Dieser Wahrscheinlichkeitswert, entspricht dem Anteil des Pixelfarbwertes am Gesichts-Histogramm. In dem Beispielbild entspricht der blaue
Farbwert etwa 50% der gesamten Gesichts-Histogrammes. Damit wäre der Wahrscheinlichkeitswert für einen Pixel mit diesem Farbwert etwa 50%. In den folgenden Bildern wird für
jeden Pixel dieser Wahrscheinlichkeitswert ausgerechnet und ergibt ein Bild wie in Abbildung
5.3(b). Je heller der Grauwert in diesem Bild, umso wahrscheinlicher gehört der Pixel zum
Gesicht.
Auf diesem Wahrscheinlichkeitsbild baut dann das Versetzen des Rechteckes auf. Versetzt
wird das Rechteck in den Schwerpunkt der hohen Wahrscheinlichkeiten, also der hellen Punkte in Abbildung 5.3(b). Dabei baut der Algorithmus auf dem Rechteck des vorherigen Bildes
auf, um dort den neuen Schwerpunkt der Grauwerte zu berechnen. Der Schwerpunkt verschiebt sich adaptiv, bis sich keine Veränderungen mehr ergeben. Es ist die neue Position des
Gesichtes und dem dazugehörigen Rechteck gefunden.
Im Unterschied zum Mean-Shift-Algorithmus passt der Cam-Shift-Algorithmus auch die Größe und den Winkel des Rechteckes an. Dabei wird die Größe und der Winkel berechnet,
welcher die hellen Pixel des Wahrscheinlichkeitsbildes am besten umrandet.
(a) Histogramm
(b) Gewichtung der Pixel
Abbildung 5.3: Cam-Shift-Algorithmus
5.2.3 Gestenerkennung
Ziel im Rahmen der prototypischen Umsetzung war es, die Bewegung des Gesichtes zu verfolgen, um dann auf vorher definierte Gesten zu schliessen. Der Cam-Shift-Algorithmus verfolgt
78
einen Schwerpunkt von Helligkeitswerten. Dadurch ist er nicht dazu in der Lage Bewegungen
innerhalb dieser Helligkeitswerte, wie zum Beispiel Kopfschütteln zu erkennen. Er ist somit
nicht sensitiv für Gestik und Mimik, jedoch unabdingbar, um die aktuelle Position des Gesichtfeldes unter Echtzeitbedingung an die nachfolgenden Algorithmen weiterzugeben. Für
die Gestik muss ein weiterer Algorithmus erarbeitet werden, um die genannten Probleme des
Cam-Shift-Algorithmus zu überwinden. Der im Folgenden erklärten Algorithmus lässt sich
auch zur Mimik- und Gesichtsausdrucksanalyse weiter verfeinern.
Um Gestiken im Gesichtsfeld erkennen zu können, müssen in einem lokalen Bildbereich Merkmale verfolgt werden. Merkmale sind lokale Pixelbereiche oder Pixel innerhalb eines Bildes.
Sie zeichnen sich durch eine große Distinktheit aus und sollen leicht wieder zu erkennen
sein. Typischerweise werden Merkmale gesucht, die starke Veränderung der Intensität oder
der Farbwerte in einer lokalen Umgebung besitzen. Diese starken Kontraste sind Zeichen
hoher Dynamik und identifizieren Ecken und Kanten von Objektkonturen im Bild. Bei einer Merkmalsextraktion werden demzufolge die wichtigen strukturellen Eigenschaften eines
Bildes hervorgehoben. Diese Merkmale eignen sich besonders für die Verfolgung, beziehungsweise der Suche in Folgebildern. Um sie zu finden sollen drei Kriterien des Merkmalsextraktors
bestmöglich erfüllt werden:
• Die wichtigste Aufgabe ist es, falsche Ecken zu minimieren. Gerade durch Rauschen
werden Merkmale oftmals falsch detektiert.
• Eine detektierte Ecke soll einer guten Lagebestimmung unterliegen. Das bedeutet, der
Abstand zwischen dem berechneten Eckpixel und der echten Ecke ist minimal.
• Für einen Eckpunkt soll nur ein Punkt zurück gegeben werden. Die Anzahl der lokalen
Maxima, ausgelöst durch Rauschen um den Punkt herum, soll minimal sein.
In dieser Arbeit wird der Shi-Tomasi-Detektor für „gute Merkmale zur Verfolgung“ benutzt.
Er untersucht die Farbintensität von Pixeln. Hierfür wird die Ableitung der Intensitätswerte
I in x- und y -Richtung bestimmt. Das Ergebnis entspricht den Gradienten der Farbwerte
an einem Pixel in horizontale, vertikale und diagonale Richtungen. Die Gleichung 5.1 ist die
mathematische Entsprechung.
"
M=
Ix2
Ixy
Ixy
Iy2
#
(5.1)
M wird als Kovarianzmatrix bezeichnet, und die Eigenwerte dieser Matrix sind genau dann
groß, wenn eine Ecke vorliegt. Ist jeweils nur ein Eigenwert der Kovarianzmatrix groß, liegt
lediglich eine Kante vor. Die Eigenwerte sind folglich ein Maß für die „Kantigkeit“ zweier
orthogonaler Gradienten. Für einen ausgezeichneten Eckpunkt definieren Shi und Tomasi
79
das in Gleichung 5.2 dargestellte Auswahlkriterium.
K = det(M) − µ(tr ace(M))2
(5.2)
Der Faktor µ ist ein Gewichtungsfaktor und wurde von Shi und Tomasi empirisch zu 0.04
bestimmt. Dieses Kriterium wurde später von Tomasi noch um die Bedingung mi n(λ1 , λ2 ) >
λ erweitert, damit der kleinere Eigenwert der Kovarianzmatrix M auch über einem bestimmten
Schwellwert liegt, um die Zuverlässigkeit des Algorithmus zu verbessern. Ein Beispiel des
Shi-Tomasi-Detektors ist in Abbildung 5.4 zu sehen. Hier wurde das durch den Cam-ShiftAlgorithmus verfolgte Gesichtsfeld an den Shi-Tomasi-Detektors weitergegeben.
Abbildung 5.4: Shi-Tomasi-Detektor
Um die detektierten Gesichtsmerkmale zu verfolgen, werden die Bilder der Kamera analysiert.
Ziel ist es, die extrahierten Merkmale über die Sequenz der Bilder zu verfolgen. Die Merkmalsverfolgung ist ein klassisches Aufgabenfeld in der Bildverarbeitung. Es wird versucht,
Korrespondenzpunkte innerhalb zweier Bilder mittels der folgenden Grundannahmen zu finden: Die Merkmale sind in beiden Bildern vorhanden. Die Bildregionen um korrespondierende
Merkmale sind gleich.
Es handelt sich um einer Suche. Sei ein Element der einen Ansicht gegeben, wird das dazu
korrespondierende Element der anderen Ansicht gesucht. Die maßgeblichen Kriterien sind,
wie Bildelemente verglichen werden, und welches Ähnlichkeitsmaß verwendet wird. In dieser
Arbeit wird der Lucas-Kanade-Algorithmus zur Bestimmung von Korrespondenzpunkten benutzt. Er wurde 1981 von Bruce Lucas und Takeo Kanade vorgeschlagen [LK81]. Zunächst
war es als Ansatz gedacht, um die globale Bewegung in einem Bild zu verfolgen. Da die
Methode auch einfach auf einen Unterbereich des Bildes angewendet werden kann, ist sie zu
einer der bedeutendsten lokalen Merkmalsverfolgungsalorithmen geworden. Der Algorithmus
geht von drei grundlegenden Annahmen aus:
80
• Helligkeitskonstanz. Ein Pixel verändert nicht die Hellikeit wenn er sich von Bild zu
Bild bewegt. Für Grauwertbilder bedeutet dies, dass die Intensität eines Pixels nicht
über die Sequenz der Bilder variiert.
• Temporale Beständigkeit. Das Bild einer Oberfläche bewegt sich in kleinen Schritten
über die Zeit. Die Zeitschritte sind relativ zur Bildbewegung häufig genug, um nur
kleine Pixelbewegungen zu gewährleisten.
• Räumliche Kohärenz. Benachbarte Punkte in einer Szene gehören zur gleichen Oberfläche, haben die gleiche Bewegung und werden durch die Kamera wiederum benachbart
abgebildet.
Diese Annahmen lassen sich mathematisch ausdrücken. Die erste Annahme über die Helligkeitskonstanz bedeutet:
(5.3)
I(x, y , t) = I(x + u, y + v , t + 1)
Nach Gleichung 5.3 ändert sich die Pixelintensität des Objektpunktes nicht über die Zeit:
δI(x, y )
=0
δt
(5.4)
Wenn ein Bild zu einer Zeit t aufgenommen wird, so unterscheidet es sich von dem folgenden
Bild t + 1 nur in einer Verschiebung um (u, v ). Darin ist bereits die zweite Annahme die
„temporalen Beständigkeit“ enthalten. Sie besagt, dass es nur kleine Bewegungen von Bild
zu Bild gibt. Die Gleichungen 5.3 und 5.4 können umgestellt und mit einer Taylor Reihe
erweitert werden, was in aller Ausführlichkeit in [LK81] beschrieben ist. Der Punkt hier ist,
dass die räumliche Kohärenz noch integriert wird. Wenn sich ein Pixelbereich kohärent bewegt,
dann kann ein Fenster um einen Pixel benutzt werden, um ein System von Gleichungen zu
generieren. Wenn zum Beispiel ein 5 × 5 Fenster von Helligkeitswerten benutzt wird, dann
ergeben sich 25 Gleichungen aus den drei Annahmen des Lucas-Kanade-Algorithmus. Diese
lassen sich lösen und es ergibt sich die Gleichung:
"P
P
Ix2
Ixy
P
Ixy
P 2
Iy
#" #
u
v
"P
=− P
Ixt
Iy t
#
woraus folgt
" #
u
v
= −(AT A)−1 AT b
(5.5)
Aus dieser Beziehung resultieren die Komponenten u und v des Bewegungsvektors. Dazu
muss (AT A) invertierbar sein. (AT A) ist invertierbar, sobald die Matrix den Rang 2 besitzt.
Dazu wiederum werden zwei große Eigenvektoren benötigt, was vor allem in Pixelbereichen
mit einer großen Varianz der Helligkeitswerte in x- und y-Richtung erfüllt ist. Dies schliesst
den Kreis zur Merkmalsextraktion, bei welcher mit dem Shi-Tomasi-Detektor solche Ecken
gesucht werden. In Abbildung 5.5 ist eine Merkmalsverfolgung dargestellt.
Aufbauend auf der Merkmalsextraktion des Shi-Tomasi-Algorithmus und ihrer Verfolgung
81
Abbildung 5.5: Merkmalsverfolgung
durch den Lucas-Kanade-Algorithmus, kann für die Merkmale ein Bewegungsvektor berechnet werden. Die Bewegungsvektoren der einzelnen Merkmalen werden anschließend zu einem
Bewegungsvektor des gesamten Gesichtfeldes zusammengefasst. Die Bewegungsvektoren benachbarter Bilder werden dann zu einem Vektor über einen Zeitverlauf von 30 Bildern verallgemeinert. Dieser resultierende Vektor wird daraufhin mit einer Gestenschablone vergleichen.
Erstellt wurden für diese Arbeit zwei Gestenschablonen, zum Einen eine alternierende horizontale Bewegung, was dem Kopfschütteln entspricht und zum Anderen eine alternierenden
vertikale Bewegung, was zur Erkennung eines Kopfnicken führt.
5.2.4 Tonsignalerkennung
Für die Tonsignalerkennung, beziehungsweise die Feststellung, ob jemand spricht, entschied
sich der Autor für eine Umsetzung mit dem Schwerpunkt auf die Lautstärkendetektion des
Mikrofons. Sobald die Lautstärke des Mikrofoneinganges einen bestimmten Schwellwert überschreitet, wird der Avatar auf den Zustand „Sprechen“ gesetzt. Da sich diese Arbeit mit der
nonverbale Kommunikation Virtueller Welten beschäftigt, wird hier diese Form der Lösung
angestrebt. Sollte, wie im Abschnitt 5.1 dargelegten Konzept eine komplexe Stimmenanalyse
durchgeführt werden, wäre eine extensive Erarbeitung von Maschinenlernalgorithmen erforderlich. Letzteres würde den Umfang dieser Diplomarbeit sprengen.
5.2.5 Interpretation
Durch die vorstehend implementierten Bildanalyse- und Tonsignalerkennungsalgorithmen steht
dem Interpretationssystem verschiedene nonverbale Kommunikationshinweise zur Verfügung.
82
Zunächst wurden Kamerabilder auf Gesichter untersucht. Konnte ein Gesicht erkannt werden,
wurde dieses im Bild verfolgt und als Bereich markiert. Innerhalb dieses Bereiches erfolgte
anschließend eine Augendetektion. Kann ein Auge gefunden werden, wird nun die Gestenerkennung gestartet, indem punktförmige Merkmale im Gesichtsfeld bestimmt und verfolgt
werden. Nebenher analysiert ein weiterer Algorithmus das Mikrofonsignal.
Das Interpretationssystem weist nun verschiedenen Kombinationen von nonverbalen Hinweisen verschiedene Zustände des Avatars zu (siehe Tabelle 5.2).
Nonverbale Hinweise
Auge erkannt
Auge nicht erkannt
Gestenvektor vertikal
Gestenvektor horizontal
Tonsignal erkannt
Tonsignal und Gestenvektor
Zustand des Avatars
Untätig
nicht am Rechner
Zustimmung
Ablehnung
Sprechen
Sprechen und Gestikulieren
Tabelle 5.2: Interpretation der Eingabehinweise
5.2.6 Visualisierung
Durch das Interpretationssystem werden die nonverbalen Hinweise auf Avatarzustände abgebildet. Diese beeinflussen den Zustand des Avatares. Die Zustände beeinflussen unmittelbar,
welche Animationen des Avatars abgespielt werden.
Für die Umsetzung wurde der frei erhätliche Avatar „Jack“ mit einer neuen Gesichtstextur
(siehe Grafik 5.6) versehen. Hierfür wurden mehrere Bilder aus unterschiedlichen Positionen
analysiert und zu einer Textur zusammengeführt. Diese Textur wird dem Avatar zugewiesen,
um die Ähnlichkeit des Avatars mit dem Autor zu erhöhen und somit die Eigenrepräsentation
zu befördern.
Um den Avatar letztendlich zu bewegen, wurde ihm vom Autor ein Skelett angepasst. Neben dem Skelett wurden weiterhin Morphanimationen erstellt um den Zustand des „Sprechens“ animieren zu können. Diese bestehen aus drei verschiedenen Visemen, welche durch
ein Nacheinanderausführen der Morphanimationen (vgl. Kapitel 3.1.2) eine Sprechanimation
modellieren.
83
Abbildung 5.6: Avatar mit Gesichtstextur des Autors
Motion-Capture
Dank Professor Wacker an der HTW Dresden2 war es im Rahmen dieser Arbeit möglich,
Motion-Capture-Sequenzen des Autors zu erstellen (siehe Abbildung 5.7). Die Sequenzen
wurden vom Autor weiter verarbeitet, um die generierten Skelettdaten auf einen systemeigenen Skeletttyp portieren zu können. Diese Zwischenergebnisse konnten dann auf das Skelett
des Avatars projiziert und in den Prototypen für hohen Gehalt an Eigenrepräsentation integriert werden. Die erstellten Animationen entsprechen den Zuständen Zustimmung, Ablehnung, Gestikulieren und Abwesenheit.
(a) Bewegung des Autors
(b) Animation auf dem Avatar
Abbildung 5.7: Motion-Capture-Aufnahmen an der HTW Dresden
2
http://idw-online.de/pages/de/news347683
84
5.3 Zusammenfassung
5.3 Zusammenfassung
Auf der Grundlage der Bewertungskriterien aus Kapitel 4, wurde eine Konzept virtueller
nonverbaler Kommunikation erstellt.
Als zusätzliches Eingabegerät wird die Kamera eingeführt, welche visuelle nonverbale Hinweise
erkennen und übermitteln soll. Dabei wird auf den Freiheitsgrad der Eingabe verwiesen, denn
es gibt auch Blickverfolgungsgeräte und Virtual Reality Helme, welche den Nutzer stark
einschränken. Mit einer Kamera wird keine Bewegung eingeschränkt und neuere Computer
werden bereits mit einer Kamera geliefert. Integriert in heutige Kameras sind Mikrofone, um
die verbale und paraverbale Kommunikation zu übertragen.
Die Bilder der Kamera wurden durch die Bildverarbeitung hinsichtlich nonverbaler Hinweise
analysiert. Es ergeben sich verschieden Informationen aus verschiedenen Algorithmen. So kann
die Aufmerksamkeit mit Hilfe einer Augenanalyse beobachtet, bewusste Gesten mit einer Analyse des Porträtausschnittes gewonnen und nonverbale Hinweise aus der Gesichtsausdrucksund Stimmenanalyse der Kamera extrahiert werden. Sind die Hinweise aus den Bildern erschöpfend untersucht, wird darauf eine Interpretation zum Avatarzustand bestimmt. Diese
Interpretation sollte auf ein Individuum direkt angepasst werden, da die Denotation dieser
Merkmale nicht universell einsetzbar ist. Visualisiert werden die gesammelten Hinweise auf
zwei Arten. Einmal können sie direkt übersetzt werden, wie zum Beispiel bei der Lippensynchronisation, andererseits können Bewegungsicons erstellt werden. Welches Bewegungsicon,
zu welcher Zeit abgespielt wird, muss dann das Interpretationssystem vorgeben.
Das Konzept klingt plausibel, lässt sich aber nicht eins zu eins umsetzen. Um zu zeigen,
wie sich mit moderatem Aufwand im Rahmen einer Diplomarbeit die maßgeblichen Hinweise aus dem Kamerabild in die virtuelle Kommunikation integrieren lassen, wurden Teile des
Konzeptes auch praktisch umgesetzt. Aus dem Kamerabild wird ein Gesicht extrahiert und
das Gesichtsfeld dann verfolgt. Wird kein Gesicht erkannt, startet beim Avatar die Animation des Abwesenheitszustandes. Wird ein Gesicht erkannt, so wird dieses verfolgt und auf
die Bewegungsmuster Kopfnicken und Kopfschütteln getestet. Im Zusammenhang mit der
Tonsignalanalyse sind relevante Zustände des Nutzers erkennbar und auf einen Avatarzustand projizierbar. Durch Motion Capture und Texturanpassung, konnte zusätzlich noch die
Eigenrepräsentation im Prototyp integriert werden.
85
6 Fazit
Im letzten Kapitel der Diplomarbeit wird sie noch einmal resümiert. Durch einer Zusammenfassung werden die Hauptpunkte der Arbeit herausgestellt. Basierend auf der Zusammenfassung können dann die Ergebnisse der Arbeit diskutiert werden. Abschliessend erfolgt ein
Ausblick über weitere potentielle Forschungsfragen.
6.1 Zusammenfassung
Das Ziel der Diplomarbeit war es, die virtuelle Kommunikation um Hinweise nonverbaler
Kommunikation zu erweitern. Dazu mussten zuerst die Grundlagen Virtueller Welten und
Kommunikation erarbeitet werden. Um nonverbale Hinweise zu übertragen, werden Kamera
und entsprechende Analysealgorithmen benötigt, deren Elementarwissen der Computer Vision im dritten Teil der Grundlagen definiert wird.
In den Grundlagen der Kommunikation wurde besonders auf die zwischenmenschliche Kommunikation eingegangen. Wechselseitigkeit, Sprachlichkeit, Reflexivität, Intentionalität und
Anwesenheit sind diejenigen Konzepte, die Kommunikation zwischen Menschen definieren
und ziehen sich als Themen durch die gesamte Arbeit.
Es wurde begründet, dass Virtuelle Welten computergeneriert und damit synthetisch sind.
Sie unterliegen softwaretechnologischen Einschränkungen, was sich vor allem auf den Freiheitsgrad des Avatar-Systems auswirkt. Avatare sind die dreidimensionalen Repräsentaten der
Menschen in Virtuellen Welten. Sie basieren auf einer computergrafischen Berechnung aus
Polygonen, die sich durch viele technische Kniffe der Fotorealität annähern. Diese Polygonnetze auch in der Bewegung realistisch darzustellen, ist durch den Effekt des „Unheimlichen
Tales“ nicht einfach, konnte jedoch durch die Methode des Performance-Captures minimiert
werden. Die Animationen der Avatare sind dadurch bewegungsrealistisch geworden, wie auch
der Film „Avatar:Aufbruch nach Pandora“ eindrucksvoll zeigte. Es stellte sich ebenso heraus, dass die Animationen nicht den realen Bewegungen der Nutzer entsprechen, sondern
nur Icons für jene sind. So stellen die Animationen nur Muster für einen bestimmten Bedeutungsgehalt, das heisst für eine bestimmte Intention des Nutzers, jedoch nicht für dessen
reale Abbildung dar.
87
6 Fazit
Virtuelle Welten können demnach auf einen hohen Grad an Fotorealismus und Bewegungsrealismus zurückgreifen. Anders sieht es da in der Kommunikation aus. Die Analyse hat
ergeben, dass zwar textuelle (Intentionalität) und sprachliche Kommunikation (Sprachlichkeit) unterstützt werden, diese Erfahrungen sich jedoch kaum von einer Telefonkonferenz
unterscheiden. Der logische nächste Schritt ist, die nonverbale Kommunikation zu integrieren. Wird diese erfolgreich eingeführt, kann sich die virtuelle Kommunikation über Avatare
von der über Videokonferenzen abheben und einen bedeutenden Qualitätssprung in Richtung
Angesicht-zu-Angesicht-Kommunikation machen.
Um den Unterschied zwischen virtuellen Kommunikationen messbar zu machen, um dadurch
erst ein quantitatives „verbessern“ virtueller Kommunikation zu ermöglichen, wurde in dieser Arbeit ein Bewertungssystem entwickelt. Dafür analyisierte der Autor die technischen
Fähigkeiten Virtueller Welten und stellte sie in Zusammenhang mit den Einflussfaktoren für
den Erfolg virtueller Kommunikation. Durch diese methodische Vorgehensweise kann die Präsenz (Anwesenheit) und die soziale Präsenz (Wechselseitigkeit, Reflexivität), basierend auf
technologischen Möglichkeiten, in verschiedenen Virtuellen Welten verglichen werden.
Das Bewertungssystem zeigt weiterhin auf, welche technische Fähigkeiten benötigt werden,
um die Effekte der Präsenz und der sozialen Präsenz zu bewirken. Daran orientiert konnte ein
Konzept erstellt werden, welches sich neben Tastatur und Maus auch der Kamera bedient.
Diese erlaubt es dem Computer nonverbale Hinweise der Kommunikation zu erfassen und auf
den Avatar als Bewegungsmuster abzubilden.
Das Konzept wurde als Prototyp zudem praktisch umgesetzt. Die Bilder der Kamera werden
dabei auf Gesichter untersucht. Sind Gesichter gefunden, werden sie verfolgt und auf Bewegungsmuster und Gestenintentionen analysiert. Einfache nonverbale Hinweise wie Zuneigung
(Nicken), Ablehnung (Kopfschütteln) und Aufmerksamkeit (Auge erkennbar?) konnten auf
Avataranimationen projiziert bereits implementiert werden.
6.2 Ausblick
Es gibt unterschiedliche Ansätze, virtuelle Kommunikation zu verbessern. Es können die Bewertungskriterien weiter verfeinert werden, um genauere Vergleiche zu erhalten, es kann das
Konzept weiter ausgebaut und komplett umgesetzt werden, und es besteht Bedarf beim Verständnis der Einflussfaktoren auf die Erlebnistiefe und deren Zuordnung zu Technologien. Im
Folgenden sollen zu jedem dieser Punkte ein paar Beispielthemen erarbeitet, sowie zukünftige
Entwicklung virtueller Kommunikation skizziert werden.
88
6.2 Ausblick
Bewertungskriterien
In dieser Arbeit wurden die Bewertungskriterien aus der Analyse technologischer und psychologischer Zusammenhänge erarbeitet. Um aber eine genaue Messung und Punktevergabe zu
ermöglichen, sollte jedem der technologischen Fähigkeiten eine klare Wichtung und genaue
Attribute zugeordnet werden. So könnte für den Faktor Renderdetail eine Reihe Technologien
zur Auswahl gestellt werden. Es ist vorstellbar, dass dem Renderdetail die Attribute Rasterisierung, Raytracing und Punktwolken, zugeordnet werden, welche unterschiedliche Verfahren
zum Darstellen Virtueller Welten sind, mit jeweils unterschiedlicher Qualität. Werden diese
Unterschiede statistisch analysiert, können sie gewichtet und damit die Bewertungskriterien
präzisiert werden.
Konzept
Wie die Bewertungskriterien lässt sich auch das Konzept vertiefen. In dem Konzept wurde
vorgeschlagen, dass einfache Gesten wie Nicken und Kopfschütteln erkannt werden. Dieses
Gestensystem sollte erweitert und auf Szenarien zugeschnitten werden. So sind zum Beispiel
Gesten für virtuellen Vorträge denkbar. Dabei können Gesten für den Vortragenden und auch
für die Zuhörenden erdacht werden, wie zum Beispiel gestikulieren, melden oder zeigen. Um
diese Gesten zu erkennen ist es von Vorteil, das Konzept um eine Detektion von Gesten über
ein Skelettsystem zu berechnen. In Motion-Capture-Systemen wird über die Schauspieler ein
Skelett gelegt. Dasselbe ist auch in Porträtvideos von Kameras umsetzbar. Diese TrackingTechnologie wird zum Beispiel schon von Microsoft, in dem Projekt Natal1 , benutzt. Neben
Kameras sind auch Zukunftstechnologien wie das Brain-Computer-Interface „emotiv“ 2 integrierbar. Bei diesem werden über ein EEG und ein Gyroskop emotionale Zustände extrahiert.
Emotionen sind durch das EEG präziser bestimmbar, und es wird ermöglicht, die kulturellen Barrieren, welche zum Beispiel bei der Gesichtsausdrucksanalyse noch vorherrschen, zu
überwinden.
Diese Schritte versuchen erst einmal, die Realität eins zu eins abzubilden. Ist das Ziel erreicht,
kann sich mit weiteren Ideen beschäftigt werden. In fantasievollen Zeichentrickfilmen wie „Das
wandelnde Schloss“ von Hayao Miyazaki werden Emotionen die Realität noch übertreffend
gezeigt. So zerfliesst ein Zauberer in grünen Schleim und ruft dunkle Geister herbei, weil
er traurig ist. In einem weiteren Märchen färbt sich ein Mädchen schwarz-weiss in einer
sonst bunten Welt, um zu verdeutlichen, wie deprimiert sie ist. Ein anderer Charakter wird
transparent, weil er seinen Sinn im Leben verloren hat, und ein wütender Mann wird groß
und laut wie ein Riese. Wieder in einem anderen Märchen, dem „Goldenen Kompass“ von
1
2
http://www.xbox.com/de-DE/news-features/news/Controller-free-gaming.htm
http://www.emotiv.com/
89
Glossar
Phillip Pullman, steht jedem Menschen ein seelenverwandter Dämon zur Seite. Dieser Dämon
enspricht den maßgeblichen Eigenschaften des menschlichen Charakters, so in etwa die weise
Eule oder der starke Löwe.
Umsetzung
Da die Umsetzung in dieser Arbeit nur prototypisch durgeführt werden konnte, gibt es Raum
für Verbesserungen und Erweiterungen. Neben der robusteren Umsetzung der Algorithmen der
Computer Vision, ist der offensichtlich nächste Schritt die Blickverfolgung für eine Kamera
zu implementieren, um einen präzisen Aufmerksamkeitsfokus zu erhalten. In Verbindung mit
einer perspektivischen Korrektur, wie von Groh und Zavesky in [GZ08] vorgeschlagen, kann
derart Augenkontakt erkannt und umgesetzt werden. Weitere interessante Schritte sind die
Umsetzung von Lippensynchronisation zwischen Avatar und Nutzer und die Untersuchungen
virtueller Kommunikation in Head-Mounted-Displays oder einer CAVE-Umgebung.
Zukünftige Entwicklung
Virtuelle Kommunikation wird auf mehreren Wegen vorrangetrieben. Auf der einen Seite
gibt es Versuche, Videokonferenzen in die Dreidimensionalität zu übertragen. Andererseits
werden die einzelnen Faktoren aus Kapitel 4 weiterentwickelt. Vor allem der Bereich des
Fotorealismus entwickelt sich rasant. So gibt es seit Anfang 2010 erste Cloud-ComputingRenderer wie OnLive und OTOY. Dahinter verbirgt sich eine neuartige Technologie, welche
die Grafikausgabe Virtueller Welten nicht mehr von Clientrechner berechnen lässt, sondern
unmittelbar vom Server selbst erfolgt. Diese Server sind auf das Rendern spezialisiert und
haben eine Rechenfähigkeit im Bereich von Petaflops pro Sekunde. Diese Fähigkeiten sind
nicht für gewöhnliche Heimrechner und Mobiltelefone vorstellbar und erlauben die Berechnung
von Fotorealistischen Bildern in Echtzeit.
Ein weiterer Ansatz wurde bereits in dieser Arbeit verfolgt. Die Integration von Porträtvideos
aus Webkameras erlaubt Blickrichtungsverfolgung, Emotionserkennung und Gestiken in Virtuellen Welten. Damit lässt sich das Gefühl der sozialen Präsenz maßgeblich verstärken. Zusammen mit der Entwicklung von Head-Mounted-Displays wird die virtuelle Kommunikation
die Angesicht-zu-Angesicht-Kommunikation in naher Zukunft präzise emulieren können.
90
Glossar
Angesicht-zu-Angesicht-Kommunikation
Enstammt dem englischen Begriff Face-to-Face Communication und bezeichnet die
Situation in der sich zwei Menschen direkt gegenüberstehen und kommunizieren. 6
erweiterte Realität
Augmented Reality bedeutet im deutschen erweiterte Realität. Begriff der für die Erweiterung von realer Welt durch synthetische Objekte beschreibt. Dabei wird zumeist ein
Video von der Realität aufgenommen und in Echtzeit ein computergeneriertes Objekt
in das Video reingerechnet. 11
erweiterte Virtualität
Augmented Virtuality lässt sich erweiterte Virutalität übertsetzen. Der Begriff steht für
die Erweiterung von Virtualität durch reale und physische Objekte. So ist es erweiterte
Virutalität, wenn eine virtuelle Welt um einen Videostream der realen Welt erweitert
wird. 11
Head-Mounted-Displays
HMDs sind Helme oder Brillen mit integrierten Bildschirmen, die man sich auf den Kopf
setzen kann. Wird auch als kopfgestützte Anzeigen übersetzt. 69
HSV-Farbraum
Der HSV-Farbraum ist der Farbraum, bei dem die Farbe mit Hilfe des Farbtons (englisch
hue), der Farbsättigung (saturation) und des Intensitätswertes (value) definiert. 77
Pixel
Pixel stellen die kleinsten Bildeinheit in einem digitalen Bild dar. 27
Proxemik
Proxemik untersucht und beschreibt die Signale von Individuen, die sie durch das Einnehmen einer bestimmten Distanz zueinander austauschen. 47
91
Glossar
RGB-Format
Es gibt viele verschiedene Formate, um Bilder mit mehreren Farben darzustellen. Das
RGB-Format besteht aus den drei Farben Rot, Grün und Blau, welche zusammen gemischt werden. Ein anderes Beispiel ist das CMYK-Format, welches aus den Farben
Cyan, Mangenta, Gelb und Schwarz besteht. 27
vermischte Realität
kommt von dem englischen Begriff Mixed Reality. Bezeichnet den Abschnitt zwischen
Realität und Virtualität. 11
Video-stream
Der Begriff für Streaming Video und Streaming Audio und bezeichnet aus einem Rechnernetz empfangene und gleichzeitig wiedergegebene Audio- und Videodaten. Den Vorgang der Datenübertragung selbst nennt man Streaming, und gestreamte Bilder einer
Videokamera nennt man Video-stream. 6
Virtualität-Realität-Kontinuum
Taxonomie von Paul Milgram um Virtualtät und Realität, sowie deren Mischformen
einzuordnen. 11
92
[BB94]
Bentele,
G.
und
K.
Beck:
Information-Kommunikation-
Massenkommunikation: Grundbegriffe und Modelle der Publizistik-und
Kommunikationswissenschaft. Medien und Journalismus, 1:15–50, 1994.
[BB04]
Bailenson, J. und J. Blascovich: Avatars. Encyclopedia of Human-Computer
Interaction. Berkshire Publishing Group, Seiten 64–68, 2004.
[BC04]
Brown, E. und P. Cairns: A grounded investigation of game immersion. In:
Conference on Human Factors in Computing Systems, Seiten 1297–1300.
ACM New York, NY, USA, 2004.
[BEA07]
Bente, G., F. Eschenburg und L. Aelker: Effects of simulated gaze on social
presence, person perception and personality attribution in avatar-mediated
communication. In: Proceedings of the 10th Annual International Workshop
on Presence, 2007.
[Bec07]
Beck, K.: Kommunikationswissenschaft. Uvk Verlags GmbH, 2007.
[BH02]
Biocca, F. und C. Harms: Defining and measuring social presence: Contribution to the networked minds theory and measure. Proceedings of PRESENCE, 2002, 2002.
[Bla02]
Blascovich, J.: Social influence within immersive virtual environments. The
social life of avatars: Presence and interaction in shared virtual environments, Seiten 127–145, 2002.
[BLB+ 02]
Blascovich, J., J. Loomis, A.C. Beall, K.R. Swinth, C.L. Hoyt und J.N.
Bailenson: Immersive virtual environment technology as a methodological
tool for social psychology. Psychological Inquiry, 13(2):103–124, 2002.
[BRB08]
Bell, M.W. und S. Robbins-Bell: TOWARDS AN EXPANDED DEFINITION
OF "VIRTUAL WORLDS". New Digital Media, 1:125, 2008.
[BS79]
Bergler, R. und U. Six: Psychologie des Fernsehens. Huber, 1979.
93
[Bur95]
Burkart, R.: Kommunikationswissenschaft: Grundlagen und Problemfelder:
Umrisse einer interdisziplinären Sozialwissenschaft. Böhlau, 1995.
[BYMS06]
Bailenson, J.N., N. Yee, D. Merget und R. Schroeder: The effect of behavioral realism and form realism of real-time avatar faces on verbal disclosure,
nonverbal disclosure, emotion recognition, and copresence in dyadic interaction. Presence: Teleoperators and Virtual Environments, 15(4):372, 2006.
[CM02]
Comaniciu, D. und P. Meer: Mean shift: A robust approach toward feature space analysis. IEEE Transactions on pattern analysis and machine
intelligence, 24(5):603–619, 2002.
[CPB+ 94]
Cassell, J., C. Pelachaud, N. Badler, M. Steedman, B. Achorn, T. Becket,
B. Douville, S. Prevost und M. Stone: Animated conversation: rule-based
generation of facial expression, gesture & spoken intonation for multiple
conversational agents. In: Proceedings of the 21st annual conference on
Computer graphics and interactive techniques, Seiten 413–420. ACM New
York, NY, USA, 1994.
[CSDSHSLN07] Castrillon Santana, M., O. Deniz Suarez, D. Hernandez Sosa und J. Lorenzo Navarro: Using Incremental Principal Component Analysis to Learn a
Gender Classifier Automatically. In: 1st Spanish Workshop on Biometrics,
Girona, Spain, June 2007.
[DMZ95]
Dyer, S., J. Martin und J. Zulauf: Motion capture white paper. Online,
1995.
[DS02]
Duval, T.S. und P.J. Silvia: Self-awareness, probability of improvement,
and the self-serving bias. Journal of Personality and Social Psychology,
82(1):49–61, 2002.
[EA44]
Edgerton, F. und E. Arnold: The Bhagavad Gita. Harvard University Press,
1944.
[fCTatUoSC10] Southern California, Institute for Creative Technologies at the University of:
InterFaces - Virtual Humanes, Real Friends. Website, April 2010.
[FSB75]
Fenigstein, A., M.F. Scheier und A.H. Buss: Public and private selfconsciousness: Assessment and theory. Journal ol Consulting and Clinical
Psychology, 43(4):522–527, 1975.
[Fur99]
Furniss, M.: Motion capture. In: MEDIA IN TRANSACTION CONFERENCE, Band 1, 1999.
94
[Gam10]
GamersHell.com: Best-Selling Novels as MMOG-dtp Entertainment Announces Otherland.
Website, April 2010.
online erhältlich un-
ter http://www.gamershell.com/companies/dtp_entertainment_ag/
504534.html; besucht am 15.April 2010.
[GMH04]
Gerhard, M., D. Moore und D. Hobbs: Embodiment and copresence in
collaborative interfaces. International journal of human-computer studies,
61(4):453–480, 2004.
[Gra72]
Graumann, C. F.: Interaktion und Kommunikation. Handbuch der Psychologie, Bd, 7(2):1109–1262, 1972.
[GSC+ 07]
Goesele, M., N. Snavely, B. Curless, H. Hoppe und S.M. Seitz: Multi-view
stereo for community photo collections. In: Proceedings of the international
conference on computer vision. Citeseer, 2007.
[GZ08]
Groh, R. und M. Zavesky: Mein Avatar und ich: Zur kameravermittelten
Interaktion mit anthropomorphen 3D-Repräsentanten. In: Herczeg, M.;
Kindmüller, M. (Hrsg.): Mensch und Computer 2008: Viel Mehr Interaktion,
Seiten 187–196. Oldenburg Verlag, 2008.
[HRH+ 05]
Hauber, J., H. Regenbrecht, A. Hills, A. Cockburn und M. Billinghurst:
Social Presence in two-and threedimensional Videoconferencing. In: Proceedings of 8th Annual International Workshop on Presence, London/UK,
Seiten 189–198, 2005.
[IH07]
Innocent, T. und S. Haines: Nonverbal communication in multiplayer game
worlds. In: Proceedings of the 4th Australasian conference on Interactive
entertainment, Seiten 1–9. RMIT University, 2007.
[Inc10]
Inc., Linden Research: Second Life. Website, April 2010. online erhältlich
unter http://secondlife.com/?v=1.0; besucht am 15.April 2010.
[Jäc95]
Jäckel, M.: Interaktion. Soziologische Anmerkungen zu einem Begriff.
Rundfunk und Fernsehen, 43(4):463–476, 1995.
[JCC+ 08]
Jennett, C., A.L. Cox, P. Cairns, S. Dhoparee, A. Epps, T. Tijs und A. Walton: Measuring and defining the experience of immersion in games. International Journal of Human-Computer Studies, 66(9):641–661, 2008.
[Jen09]
Jensen, S.S.: AVATAR-BASED SENSE-MAKINGS AND COMMUNICATION PRACTICES IN THE METAVERSE–an empirical study of actors and
95
of their use of avatars as personal mediators in the virtual worlds of EverQuest and Second Life. Online worlds as media and communication format.
MediaCulture, Special Issue, 2009.
[JLF+ 09]
Jones, A., M. Lang, G. Fyffe, X. Yu, J. Busch, I. McDowall, M. Bolas und
P. Debevec: Achieving eye contact in a one-to-many 3D video teleconferencing system. In: ACM SIGGRAPH 2009 papers, Seite 64. ACM, 2009.
[Joi01]
Joinson, A.N.: Self-disclosure in computer-mediated communication: The
role of self-awareness and visual anonymity. European Journal of Social
Psychology, 31(2):177–192, 2001.
[Kee97]
Keegan, M.: A classification of MUDs. Journal of MUD Research, 2(2):12,
1997.
[Koc02]
Kocher, Mela: Autonome Avatare: Hybris virtueller Zeichen-Körper?
Website, Oktober 2002.
online erhältlich unter http://www.brown.
edu/Research/dichtung-digital/2002/11/10-Kocher/index.htm;
besucht am 13.Januar 2010.
[Koe70]
Koenig, O.: Kultur und Verhaltensforschung. Einfuhrung in die Kulturethologie. Munchen: Deutscher Taschenbuchverlag, 1970.
[Kub94]
Kubler, H. D.: Kommunikation und Massenkommunikation. Lit-Verl., 1994.
[LH08]
Livingstone, M. und D.H. Hubel: Vision and art: The biology of seeing.
Abrams, 2008.
[LK81]
Lucas, B.D. und T. Kanade: An iterative image registration technique with
an application to stereo vision. In: International joint conference on artificial
intelligence, Band 3, Seite 3. Citeseer, 1981.
[LLN98]
Lee, J.K., J.L. Lentz und I.I. Novof: Computer controlled olfactory mixer
and dispenser for use in multimedia computer applications, März 3 1998.
US Patent 5,724,256.
[Mac05]
MacDorman, K.F.: Androids as an experimental apparatus: Why is there an
uncanny valley and can we exploit it. In: CogSci-2005 Workshop: Toward
Social Mechanisms of Android Science, Seiten 106–118, 2005.
[Mal63]
Maletzke, G.: Psychologie der Massenkommunikation: Theorie und Systematik. Verlag Hans Bredow-Institut, 1963.
96
[Mal98]
Maletzke, G.: Kommunikationswissenschaft im Überblick: Grundlagen, Probleme, Perspektiven. VS Verlag, 1998.
[Mar82]
Marr, D.: Vision: A computational investigation into the human representation and processing of visual information. Henry Holt and Co., Inc. New
York, NY, USA, 1982.
[McS05]
McShaffrey, M.: Game coding complete. Paraglyph Press, ISBN, 2005.
[Mer77]
Merten, K.: Kommunikation: Eine Begriffs-und Prozessanalyse. Westdeutscher Verl., 1977.
[MK94]
Milgram, P. und F. Kishino: A taxonomy of mixed reality visual displays.
IEICE TRANSACTIONS on Information and Systems, 77(12):1321–1329,
1994.
[Mor70]
Mori, M.: The uncanny valley. Energy, 7(4):33–35, 1970.
[MS94]
Massie, T.H. und J.K. Salisbury: The phantom haptic interface: A device
for probing virtual objects. In: Proceedings of the ASME Winter Annual Meeting, Symposium on Haptic Interfaces for Virtual Environment and
Teleoperator Systems, Band 55, Seiten 295–300, 1994.
[MW93]
McQuail, D. und S. Windahl: Communication models for the study of mass
communications. Longman Publishing Group, 1993.
[Nau99]
Naugle, L.M.: Motion capture: Re-collecting the dance. Proc. ICKL99,
Seiten 208–213, 1999.
[Nec99]
Nechvatal, J.: Immersive Ideals - Critical Distances. Doktorarbeit, University
of Wales College, 1999. A study of the affinity between artistic ideologies
based in virtual reality and previous immersive idioms.
[NNHM01]
Nakamoto, T., Y. Nakahira, H. Hiramatsu und T. Moriizumi: Odor recorder
using active odor sensing system. Sensors & Actuators: B. Chemical, 76(13):465–469, 2001.
[Oli07]
Oliden, Eduardo: John Locke - LOST.
Website, März 2007.
online
erhältlich unter http://sir3dmind.cgsociety.org/gallery/473076/;
besucht am 15.April 2010.
[Ott97]
Ottensmeyer, M. Salisbury, J.K.: Hot and cold running VR: adding thermal
stimuli to the haptic experience. Proceedings of the PHANToM Users
Group, 1997.
97
[OYK+ 03]
Ogi, T., T. Yamada, Y. Kurita, Y. Hattori und M. Hirose: Usage of video
avatar technology for immersive communication. In: Proceedings of First
International Workshop on Language Understanding and Agents for Real
World Interaction, Seiten 24–31. Citeseer, 2003.
[Pro72]
Pross, H.: Medienforschung: Film, Funk, Presse, Fernsehen. Habel, 1972.
[RGA+ 09]
Rushforth, M., S. Gandhe, R. Artstein, A. Roque, S. Ali, N. Whitman und
D. Traum: Varying personality in spoken dialogue with a virtual human. In:
Intelligent Virtual Agents, Seiten 541–542. Springer, 2009.
[Rum05]
Rumbke, Leif: Raumrepräsentation im klassischen Computerspiel. Technischer Bericht, Kunsthochschule für Medien, Köln, 2005.
[Rum06]
Rumbke, Leif: Kinetische Semiotik im klassischen Computerspiel. Diplomarbeit im Fachbereich Mediengestaltung, Kunsthochschule für Medien, Köln,
Januar 2006.
[SB03]
Sidenbladh, H. und M.J. Black: Learning the statistics of people in images
and video. International Journal of Computer Vision, 54(1):183–209, 2003.
[Sch76]
Scheier, M.F.: Self-awareness, self-consciousness, and angry aggression.
Journal of Personality, 44(4):627–644, 1976.
[Sch90]
Schreiber, E.: Repetitorium Kommunikationswissenschaft. Aufl. München:
Ölschläger, 3., überarb:369, 1990.
[Sch99]
Schenk, M.: Kommunikationstheorien. Noelle-Neumann et al., 1:171–186,
1999.
[SE00]
Salem, B. und N. Earle: Designing a non-verbal language for expressive avatars. In: Proceedings of the third international conference on Collaborative
virtual environments, Seiten 93–101. ACM, 2000.
[SSS06]
Snavely, N., S.M. Seitz und R. Szeliski: Photo tourism: exploring photo
collections in 3D. In: ACM SIGGRAPH 2006 Papers, Seite 846. ACM,
2006.
[Ste00]
Stephenson, N.: Snow crash. Spectra, 2000.
[SUS94]
Slater, M., M. Usoh und A. Steed: Depth of presence in virtual environments. Presence-Teleoperators and Virtual Environments, 3(2):130–144,
1994.
98
[SW97]
Slater, M. und S. Wilbur: A Framework for Immersive Virtual
Environments(FIVE)- Speculations on the role of presence in virtual environments. Presence: Teleoperators and Virtual Environments, 6(6):603–616,
1997.
[Sze10]
Szeliski, Richard: Computer Vision: Algorithms and Applications. Draft vom
10.01.2010 von http://research.microsoft.com/ szeliski/, Januar 2010.
[SZS06]
Sivic, J., C.L. Zitnick und R. Szeliski: Finding people in repeated shots of
the same scene. In: British Machine Vision Conference, Seiten 909–918.
Citeseer, 2006.
[Tan02]
Tanenbaum, Andrew S.: Computer Networks. Prentice Hall, 4., überarbeitete Auflage Auflage, August 2002.
[VC98]
Vilhjalmsson, H.H. und J. Cassell: Bodychat: Autonomous communicative
behaviors in avatars. In: Proceedings of the second international conference
on Autonomous agents, Seite 276. ACM, 1998.
[VJ02]
Viola, P. und M. Jones: Robust real-time object detection. International
Journal of Computer Vision, 57(2):137–154, 2002.
[VJP07]
Vasalou, A., A.N. Joinson und J. Pitt: Constructing my online self: avatars
that increase self-focused attention. In: Proceedings of the SIGCHI conference on Human factors in computing systems, Seite 448. ACM, 2007.
[Whi76]
White, J.E.: A high-level framework for network-based resource sharing.
In: Proceedings of the June 7-10, 1976, national computer conference and
exposition, Seiten 561–570. ACM, 1976.
[WW47]
Weber, M. und J. Winckelmann: Wirtschaft und gesellschaft: Grundriss der
verstehenden Soziologie. Mohr, 1947.
[Wys07]
Wysocki, Piotr Fox: The Artist himself.
Website, März 2007.
online
erhältlich unter http://fox.cgsociety.org/gallery/472843/; besucht
am 15.April 2010.
[Yee06]
Yee, N.: The psychology of massively multi-user online role-playing games:
Motivations, emotional investment, relationships and problematic usage.
Avatars at Work and Play, Seiten 187–207, 2006.
99
[YF06]
Yao, M.Z. und A.J. Flanagin: A self-awareness approach to computermediated communication. Computers in Human Behavior, 22(3):518–544,
2006.
[ZJ98]
Zahorik, P. und R.L. Jenison: Presence as being-in-the-world. Presence,
7(1):78–89, 1998.
100
2.1
Virtualität-Realität-Kontinuum nach [MK94] . . . . . . . . . . . . . . . . . . 11
2.2
Beispiele für das Virtualität-Realität-Kontinuum . . . . . . . . . . . . . . . . 12
2.3
Hybrides Avatar-Agent Modell nach [GMH04] . . . . . . . . . . . . . . . . . 15
2.4
Client-Server-Modell
2.5
Architektur OpenSim Server aufbauend auf ([McS05], S. 23) . . . . . . . . . 17
2.6
Architektur RealXtend Client aufbauend auf ([McS05], S. 23) . . . . . . . . 18
2.7
Sender-Empfänger-Modell nach ([Bec07] S.26) . . . . . . . . . . . . . . . . 20
2.8
Vergleich von Auge und Kamera . . . . . . . . . . . . . . . . . . . . . . . . 27
2.9
Aufbau eines Bildes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1
Vektoren der Avatarposition nach [GZ08] . . . . . . . . . . . . . . . . . . . 32
3.2
Beispiele für realitätsnahe 3D Modelle . . . . . . . . . . . . . . . . . . . . . 33
3.3
Polygonnetz eines weiblichen Kopfes . . . . . . . . . . . . . . . . . . . . . . 33
3.4
Diffuse-Map und Bump-Map eines Avatars . . . . . . . . . . . . . . . . . . . 34
3.5
Skelett eines Avatars und dessen Auswirkung auf das Polygonnetz . . . . . . 36
3.6
Das Uncanny Valley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.7
Motion-Capture Anlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.8
Das Emily Project von Image Metrics . . . . . . . . . . . . . . . . . . . . . 41
3.9
Performance Capturing für den Film Avatar . . . . . . . . . . . . . . . . . . 42
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.10 deutsches MUD Silberland . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.11 Verschiedene Viseme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.12 Nonverbale Pictogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.13 Erweiterungen für Videokonferenzen . . . . . . . . . . . . . . . . . . . . . . 48
3.14 Interaktionstypen aus [GZ08] . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.15 Animation-Interaktion Zuordnung von Salem
. . . . . . . . . . . . . . . . . 50
4.1
Bildqualität und Präsenz nach Milgram ([MK94], S. 9) . . . . . . . . . . . . 56
4.2
Anzeigen und Präsenz nach Milgram ([MK94], S. 11) . . . . . . . . . . . . . 57
4.3
Theorie der Networked Minds nach [BH02] . . . . . . . . . . . . . . . . . . 58
4.4
Vergleich sozialer Präsenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1
Verwendete Merkmale im Viola-Jones-Algorithmus . . . . . . . . . . . . . . 76
5.2
Beispiel Gesichtserkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
101
102
5.3
Cam-Shift-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4
Shi-Tomasi-Detektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.5
Merkmalsverfolgung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6
Avatar mit Gesichtstextur des Autors
5.7
Motion-Capture-Aufnahmen an der HTW Dresden . . . . . . . . . . . . . . 84
. . . . . . . . . . . . . . . . . . . . . 84
Tabellenverzeichnis
5.1
Vergleich Konzept und Analyse . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2
Interpretation der Eingabehinweise . . . . . . . . . . . . . . . . . . . . . . . 83
103

Nonverbale Kommunikation zwischen Avataren in virtuellen Welten

Transcrição

Documentos relacionados

1,24 MB | pdf

Testen Sie jetzt die Virtuelle Franchise-Messe! Info

Spec-Sheet

- Michael A. Vesely

Immersive Virtual Reality an der HTWG Konstanz

Präsentation zum (ca. 300 KB)

Hendrik Wötzel, Universität Leipzig

Medien und Familie

Micropayments in virtuellen Welten – Prozessmodell und Nutzung

Personalsuche in virtuellen Welten