Embodied Conversational Agents REA œ Ein ‚Real Estate Agent
Transcrição
Embodied Conversational Agents REA œ Ein ‚Real Estate Agent
UniversitŠt Bielefeld UniversitŠt Bielefeld Embodied Conversational Agents (nach Cassell, Sullivan, Prevost & Churchill 2000) u Computer-generierte Figuren, die ähnliche Eigenschaften wie Menschen in „face-to-face“-Konversationen aufweisen, inkl. Fähigkeiten verbaler und nonverbaler Kommunikation. 9 Ausgewählte Themen 27. Vorlesung: Embodied Conversational Agents (und erste eigene Arbeiten) u Sie können gesehen werden als l Methoden der KŸnstlichen Intelligenz Ipke Wachsmuth l ÊWS 2000/2001 l multimodales Interface mit natürlichen Modalitäten wie gesprochener Sprache, Gesichtsausdrücken, Handgesten und Körperhaltung Software-Agenten, indem sie den Computer in der Interaktion mit einem Menschen repäsentieren oder ihre menschlichen Benutzer in einer virtuellen Umgebung (z.B. als Avatare) verkörpern Dialog-Systeme, wobei sowohl verbale als auch nichtverbale Komponenten den Mensch-Maschine-Dialog abwickeln. 27. Vorlesung UniversitŠt Bielefeld Methoden der KŸnstlichen Intelligenz 2 UniversitŠt Bielefeld REA Ð Ein ãReal Estate AgentÒ Architektur des REA-Systems (Beispiel eines Embodied Conversational Agent am MIT Media Lab) Hardwired Reaction u Abwicklung eines Dialogs zwischen Wohnungsmaklerin REA und Benutzer Deliberative Module Knowledge Base Discourse Model Decision Module Input Devices Interactional Processing Input Manager Speech Gaze Gesture Body Position ... 27. Vorlesung Methoden der KŸnstlichen Intelligenz 3 27. Vorlesung Understanding Module Propositional Processing Generation Module speech & gesture generation Response Planner Methoden der KŸnstlichen Intelligenz Action Scheduler Output Devices Speech Gaze Gesture Body Position ... 4 UniversitŠt Bielefeld UniversitŠt Bielefeld Conversational Agents: Aspekte Metapher der face-to-face Konversation im InterfaceDesign: u „mixed initiative“-Dialog u auch nichtverbale Kommunikation u körperliche Anwesenheit u Regeln für den Kontrolltransfer 27. Vorlesung Instrukteur-Konstrukteur-Dialog Einzelgesichtspunkte: u Persönlichkeit l l l Expertisegebiet Interessenprofil audiovisuelle Erscheinung u Performative u konversationale Funktionen u Emotion Methoden der KŸnstlichen Intelligenz 5 UniversitŠt Bielefeld Kooperation beim gemeinsamen Bau eines Flugzeugmodells 27. Vorlesung Methoden der KŸnstlichen Intelligenz 6 UniversitŠt Bielefeld Zeigegesten, erste Versuche... Artikulierter Kommunikator Arbeiten mit Stefan Kopp Kinematisches Skelett mit 43 degrees of freedom (DOF) in 29 Gelenken für den Körper und 20 DOF für jede Hand. Der Arm wird zum Zeigen gehoben; der eigentliche Gestenschlag erfolgt abwärts gerichtet. 27. Vorlesung Methoden der KŸnstlichen Intelligenz 7 27. Vorlesung Methoden der KŸnstlichen Intelligenz 8 UniversitŠt Bielefeld UniversitŠt Bielefeld Generierung natŸrlicher Gesten Sprechrhythmus (stress timing) Arbeiten mit Stefan Kopp, Artikulierter Kommunikator (in germanischen Sprachen) • Betonung ("stress") durch zeitliche Dehnung einzelner – und Verdichtung anderer – Silben: Beschreibung einer Geste des Greifens oder Heranwinkens in einer um Zeitconstraints erweiterten HamNoSys-Notation ––––––––––––––––––––––––––––––––––––––––– Der Die Die Der Inter- Z ug nach Z ü-ge nach BerE i - s e n -b a h n n a c h C i-ty nach B ad Köln lin Altona S egeberg ––––––––––––––––––––––––––––––––––––––––– => relativ konstante Dauer zwischen betonten Silben, unabhängig von Silbenanzahl (beim gleichen Sprecher unter gleichen Bedingungen) 27. Vorlesung Methoden der KŸnstlichen Intelligenz 9 UniversitŠt Bielefeld 27. Vorlesung Methoden der KŸnstlichen Intelligenz 10 Methoden der KŸnstlichen Intelligenz 12 UniversitŠt Bielefeld Zeitliche Kopplung bei Sprache und Gestik Diplomarbeit Dirk Stößel u Der oft zu beobachtende abrupte Stopp im „Gesten-Schlag“ sprachbegleitender Gesten korreliert mit betonten Silben im Sprechen. u Das „Zwischenbetonungsintervall“ (interstress interval: Zeit zwischen aufeinanderfolgenden betonten Silben) beträgt bei flüssigem Sprechen ca. 1/2 sec. u Die Antizipation der zeitlichen Struktur (Sprechrhythmus) erleichtert die Äußerungs-Segmentierung beim Hörer Rezipienten wie auch das „turn-taking“. 27. Vorlesung Methoden der KŸnstlichen Intelligenz In unserem Text-to-Speech System (TTS) lassen sich prosodische Funktionen steuern (pitch scaling, time scaling) 11 27. Vorlesung UniversitŠt Bielefeld UniversitŠt Bielefeld Gesichtsmimik / Emotion... ãMAXÒ Arbeiten mit Stefan Kopp, Bernhard Jung und Studierenden (Multimodaler Assembly EXperte) Werden sich Emotionen modellieren und durch mimische Merkmale darstellen lassen? Für die sechs Grundemotionen Glück und Trauer, Überraschung, Angst/Furcht, Ekel/Abscheu und Zorn scheint es universelle mimische Ausdrucksgestalten zu geben. [nach Ekman] 27. Vorlesung Methoden der KŸnstlichen Intelligenz 13 UniversitŠt Bielefeld Quellenhinweis: u Cassell et al. (Eds.): „Embodied Conversational Agents“ (MIT Press, 2000) bei weiterem Interesse: u Hinweise zu eigenen Schriften auf Anfrage 27. Vorlesung Methoden der KŸnstlichen Intelligenz 15 27. Vorlesung Methoden der KŸnstlichen Intelligenz 14