Analyse, Modellierung und Evaluation
Transcrição
Analyse, Modellierung und Evaluation
A udiovisuelle Prosodie Analyse, Modellierung und Evaluation Gesprochene Sprache besteht ... Die Projektarbeit bezieht sich ... ... nicht nur aus den linguistischen Sprachinhalten. Es werden ebenso viele Informationen durch die Art und Weise wie etwas gesagt wird (Prosodie) dem Empfänger übermittelt. Zum Beipiel könnte ein schnelles, lautes Sprechen könnte darauf hinweisen, dass der Sprecher aufgeregt ist. Auch Information über die Art der Äußerung, z.B. ob es sich um eine Frage oder eine Feststellung handelt, wird durch die Sprachmelodie wiedergegeben. ... auf die Erweiterung des zoobe-Avatars, der bereits Lippenbe- Eine weitere wichtige Komponente der Sprache ist die Mimik. Sie spiegelt dem Empfänger sichtbar z.B. die Haltung zum Gesagten und den Gemütszustand des Sprechers wieder. Nicht alle mimischen Ausdrücke stehen im Zusammenhang mit der Sprachproduktion. Es zeigt sich aber, dass neben den, durch den natürlichen physiologischen Prozess der Lautproduktion erzeugten Gesichtsbewegungen, z.B. Lippenbewegungen, auch die prosodischen Eigenschaften einer Sprache visuell zum Ausdruck kommen. Für das Hörverständnis ist dieses von hoher Bedeutung. wegungen in Übereinstimmung mit einer aufgezeichneten Sprachnachricht visuell darstellt. Die Umsetzung der prosodischen Eigenschaften in eine optische Form wird noch realisiert. In realen Anwendungssituationen werden Sprachnachrichten akustisch aufgezeichnet und gleichzeitig Gesichts- und Kopfbewegungen mithilfe eines Motion-Capture-Systems (MoCap-System) erfasst. Die somit erworbenen Daten werden analysiert und der Zusammenhang zwischen den akustischen und optischen Spracheigenschaften so modelliert, dass eine Vorhersage der optischen Eigenschaften aus dem akustischen Sprachsignal möglich wird. Forschungsbeteiligte der Beuth Hochschule Angelika Hönemann Tel. (030) 4504-3888 [email protected] Prof. Dr. Hansjörg Mixdorff Tel. (030) 4504-2364 [email protected] Kooperationspartner zoobe message entertainment GmbH Kurfürstendamm 226, 10719 Berlin www.zoobe.com Methodik Technische Ausstattung Markerkonfiguration QUALISYS Motion-CaptureSystem 2 Oqus IR (infrarot) Kameras 1 Oqus Hochfrequenz IR Kamera 1 A/D Wandler 43 Passivmarker QUALISYS TrackManager (QTM) Software 1 Digitalkamera Panasonic NV-GS35 1 Roland EDIROL UA-25EX 1 Headset Datenanalyse Markerkonfiguration 2,5 mm für Lippen | 4 mm für bewegliche Regionen wie Kinn, Wangen, Augenbrauen, Nase, Augenlider | 7 mm für weniger bewegliche Regionen wie Stirn, Schläfen, Nasenrücken, Hals | 10 mm für die rigiden Kopfbewegungen In einem ersten Schritt wurden die akustischen Daten auf Silben- Diese so aufbereiteten audiovisuellen Daten ermöglichten eine ebene segmentiert, Phrasengrenzen und prominente Silben nach dem Notationssystem GToBi annotiert. erste statische Analyse, die vier Sprecher und eine Minute ihrer Erzählung umfasst. Gesamtanzahl der Silben, Anzahl sowie der prozentuale Anteil der prominenten Silben pro Sprecher, Silbenkategorisierung: prominente Silben innerhalb der Intermediär- bzw. Intonationsphrase (A), nicht prominente Silben am Ende einer Intermediärbzw. Intonationsphrase (B), Prominente Silben am Ende einer Intermediär- bzw. Intonationsphrase (A/B). Audiovisueller Datenkorpus Sieben Sprecher wurden gebeten drei Minuten in freier Rede von ihrem letzten Urlaub zu erzählen, während synchron Audio- und Videoaufnahmen erstellt, sowie Motion-Capture-Daten mit dem Motion-Capture-System erfasst wurden. PRAAT: von oben nach unten: Audiospur, Spektogramm mit F0-Kurve (blaue Linie) und Intensitätskurve (gelbe Linie), Wortsegmentierung, Silbensegmentierung nach SAMPA-Schema, Annotation der prominenten Silben nach GToBi, Annotation der Grenztöne nach GToBI, Annotation der Phrasengrenzen nach GToBi Durch eine genauere Betrachtung der aufgezeichneten Videos wurde eine Annotation der Kopf- und Gesichtsbewegungen sowie der allgemeine Gesichtsausduck der Sprecher vorgenommen. Regionen wie Mund, Augen, Augenbrauen, sowie Kopfbewegungen und der emotionale Gesichtsausdruck bei Freude, Ärger, Erstaunen usw. waren dabei von Interesse. QTM: Darstellung der erfassten Bewegungspunkte in einem 3D Koordinatensystem mit den entsprechenen Beschriftungen und Koordinaten der Trajektories. gungen, die mit prominenten Silben einhergehen. Dennoch gibt es individuelle Unterschiede bei den einzelnen Sprechern. Folgenes Beispiel bezieht sich auf Silben der Kategorie A: Sprecher Sprecher Sprecher Sprecher 1: 2: 3: 6: 33.8 30.0 49.2 30,9 % % % % RotationsRotationsRotationsRotations- und und und und 14.7 33.3 15.3 25.5 % Translationsbewegungen % Translationsbewegungen % Translationsbewegungen % Translationsbewegungen Prozentualle Darstellung der Rotation (blau), Translation (grün) und eine Mischform aus Rotation und Translation (grau) des Kopfes von vier Sprechern im Verhältnis zu den (A)-, (B)- und (A/B)-Silben Durch die freie Erzählung verhielten sich die Sprecher auf natürliche Art und Weise, so dass eine Untersuchung von natürlichen Bewegungen möglich ist. Zudem bieten die Erzählungen eine große Vielfalt an prosodischen Merkmalen, da sie unterschiedlich lange Sätze, Pausen und Häsitationen aufweisen. Erste Ergebnisse zeigen eine deutliche Tendenz zur Kopfbewe- ANVIL: Darstellung des Annotationsfensters, Bezeichnungen der Spuren (links), von oben nach unten: Audiospur, F0-Kurve (blaue Line) und Intensitätskurve (rote Linie), Wortsegmentierung, Silbensegmentierung nach SAMPA-Schema, Thema, Phrasen, Annotation der visuellen Cues Analysen mit weiteren Sprechern, visuellen Cues und zusätzlichen prosodischen Elementen wie die Grundfrequenz werden stattfinden. Für die Entwicklung eines Gesichtsmodells sind weitere Parameter nötig, die u.a. aus den MoCap-Daten gewonnen werden.