Embodied Conversational Agents REA œ Ein ‚Real Estate Agent

Transcrição

Embodied Conversational Agents REA œ Ein ‚Real Estate Agent
UniversitŠt Bielefeld
UniversitŠt Bielefeld
Embodied Conversational Agents
(nach Cassell, Sullivan, Prevost & Churchill 2000)
u Computer-generierte Figuren, die ähnliche Eigenschaften
wie Menschen in „face-to-face“-Konversationen aufweisen,
inkl. Fähigkeiten verbaler und nonverbaler Kommunikation.
9 Ausgewählte Themen
27. Vorlesung: Embodied Conversational Agents
(und erste eigene Arbeiten)
u Sie können gesehen werden als
l
Methoden der KŸnstlichen Intelligenz
Ipke Wachsmuth
l
ÊWS 2000/2001
l
multimodales Interface mit natürlichen Modalitäten wie gesprochener Sprache, Gesichtsausdrücken, Handgesten und Körperhaltung
Software-Agenten, indem sie den Computer in der Interaktion mit
einem Menschen repäsentieren oder ihre menschlichen Benutzer in
einer virtuellen Umgebung (z.B. als Avatare) verkörpern
Dialog-Systeme, wobei sowohl verbale als auch nichtverbale
Komponenten den Mensch-Maschine-Dialog abwickeln.
27. Vorlesung
UniversitŠt Bielefeld
Methoden der KŸnstlichen Intelligenz
2
UniversitŠt Bielefeld
REA Ð Ein ãReal Estate AgentÒ
Architektur des REA-Systems
(Beispiel eines Embodied Conversational Agent am MIT Media Lab)
Hardwired Reaction
u Abwicklung eines Dialogs zwischen Wohnungsmaklerin REA und Benutzer
Deliberative Module
Knowledge
Base
Discourse
Model
Decision Module
Input
Devices
Interactional
Processing
Input
Manager
Speech
Gaze
Gesture
Body Position
...
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
3
27. Vorlesung
Understanding
Module
Propositional
Processing
Generation
Module
speech &
gesture
generation
Response
Planner
Methoden der KŸnstlichen Intelligenz
Action
Scheduler
Output
Devices
Speech
Gaze
Gesture
Body Position
...
4
UniversitŠt Bielefeld
UniversitŠt Bielefeld
Conversational Agents: Aspekte
Metapher der face-to-face
Konversation im InterfaceDesign:
u „mixed initiative“-Dialog
u auch nichtverbale
Kommunikation
u körperliche Anwesenheit
u Regeln für den
Kontrolltransfer
27. Vorlesung
Instrukteur-Konstrukteur-Dialog
Einzelgesichtspunkte:
u Persönlichkeit
l
l
l
Expertisegebiet
Interessenprofil
audiovisuelle Erscheinung
u Performative
u konversationale
Funktionen
u Emotion
Methoden der KŸnstlichen Intelligenz
5
UniversitŠt Bielefeld
Kooperation beim
gemeinsamen Bau
eines Flugzeugmodells
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
6
UniversitŠt Bielefeld
Zeigegesten, erste Versuche...
Artikulierter Kommunikator
Arbeiten mit Stefan Kopp
Kinematisches Skelett mit 43
degrees of freedom (DOF) in
29 Gelenken für den Körper
und 20 DOF für jede Hand.
Der Arm wird zum Zeigen gehoben;
der eigentliche Gestenschlag erfolgt
abwärts gerichtet.
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
7
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
8
UniversitŠt Bielefeld
UniversitŠt Bielefeld
Generierung natŸrlicher Gesten
Sprechrhythmus (stress timing)
Arbeiten mit Stefan Kopp,
Artikulierter Kommunikator
(in germanischen Sprachen)
• Betonung ("stress") durch zeitliche Dehnung
einzelner – und Verdichtung anderer – Silben:
Beschreibung einer Geste des Greifens
oder Heranwinkens in einer um Zeitconstraints erweiterten HamNoSys-Notation
–––––––––––––––––––––––––––––––––––––––––
Der
Die
Die
Der Inter-
Z ug
nach
Z ü-ge nach BerE i - s e n -b a h n n a c h
C i-ty nach B ad
Köln
lin
Altona
S egeberg
–––––––––––––––––––––––––––––––––––––––––
=> relativ konstante Dauer zwischen betonten
Silben, unabhängig von Silbenanzahl
(beim gleichen Sprecher unter gleichen Bedingungen)
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
9
UniversitŠt Bielefeld
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
10
Methoden der KŸnstlichen Intelligenz
12
UniversitŠt Bielefeld
Zeitliche Kopplung
bei Sprache und Gestik
Diplomarbeit
Dirk Stößel
u Der oft zu beobachtende abrupte Stopp im
„Gesten-Schlag“ sprachbegleitender Gesten
korreliert mit betonten Silben im Sprechen.
u Das „Zwischenbetonungsintervall“ (interstress interval:
Zeit zwischen aufeinanderfolgenden betonten Silben)
beträgt bei flüssigem Sprechen ca. 1/2 sec.
u Die Antizipation der zeitlichen Struktur (Sprechrhythmus)
erleichtert die Äußerungs-Segmentierung beim Hörer
Rezipienten wie auch das „turn-taking“.
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
In unserem
Text-to-Speech
System (TTS)
lassen sich
prosodische
Funktionen
steuern
(pitch scaling,
time scaling)
11
27. Vorlesung
UniversitŠt Bielefeld
UniversitŠt Bielefeld
Gesichtsmimik / Emotion...
ãMAXÒ
Arbeiten mit Stefan Kopp, Bernhard Jung und
Studierenden (Multimodaler Assembly EXperte)
Werden sich Emotionen modellieren und durch mimische Merkmale
darstellen lassen? Für die sechs Grundemotionen Glück und Trauer,
Überraschung, Angst/Furcht, Ekel/Abscheu und Zorn scheint es
universelle mimische Ausdrucksgestalten zu geben. [nach Ekman]
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
13
UniversitŠt Bielefeld
Quellenhinweis:
u Cassell et al. (Eds.):
„Embodied Conversational
Agents“ (MIT Press, 2000)
bei weiterem Interesse:
u Hinweise zu eigenen
Schriften auf Anfrage
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
15
27. Vorlesung
Methoden der KŸnstlichen Intelligenz
14

Documentos relacionados