Analyse, Modellierung und Evaluation

Transcrição

Analyse, Modellierung und Evaluation
A
udiovisuelle Prosodie
Analyse, Modellierung und Evaluation
Gesprochene Sprache besteht ...
Die Projektarbeit bezieht sich ...
... nicht nur aus den linguistischen Sprachinhalten. Es werden
ebenso viele Informationen durch die Art und Weise wie etwas
gesagt wird (Prosodie) dem Empfänger übermittelt. Zum Beipiel
könnte ein schnelles, lautes Sprechen könnte darauf hinweisen,
dass der Sprecher aufgeregt ist. Auch Information über die Art
der Äußerung, z.B. ob es sich um eine Frage oder eine Feststellung handelt, wird durch die Sprachmelodie wiedergegeben.
... auf die Erweiterung des zoobe-Avatars, der bereits Lippenbe-
Eine
weitere wichtige Komponente der Sprache ist die Mimik.
Sie spiegelt dem Empfänger sichtbar z.B. die Haltung zum Gesagten und den Gemütszustand des Sprechers wieder. Nicht alle
mimischen Ausdrücke stehen im Zusammenhang mit der Sprachproduktion. Es zeigt sich aber, dass neben den, durch den natürlichen physiologischen Prozess der Lautproduktion erzeugten
Gesichtsbewegungen, z.B. Lippenbewegungen, auch die prosodischen Eigenschaften einer Sprache visuell zum Ausdruck kommen. Für das Hörverständnis ist dieses von hoher Bedeutung.
wegungen in Übereinstimmung mit einer aufgezeichneten
Sprachnachricht visuell darstellt. Die Umsetzung der prosodischen Eigenschaften in eine optische Form wird noch realisiert.
In
realen Anwendungssituationen werden Sprachnachrichten
akustisch aufgezeichnet und gleichzeitig Gesichts- und Kopfbewegungen mithilfe eines Motion-Capture-Systems (MoCap-System) erfasst. Die somit erworbenen Daten werden analysiert und
der Zusammenhang zwischen den akustischen und optischen
Spracheigenschaften so modelliert, dass eine Vorhersage der
optischen Eigenschaften aus dem akustischen Sprachsignal
möglich wird.
Forschungsbeteiligte der Beuth Hochschule
Angelika Hönemann
Tel. (030) 4504-3888
[email protected]
Prof. Dr. Hansjörg Mixdorff
Tel. (030) 4504-2364
[email protected]
Kooperationspartner
zoobe message entertainment GmbH
Kurfürstendamm 226, 10719 Berlin
www.zoobe.com
Methodik
Technische Ausstattung Markerkonfiguration
QUALISYS Motion-CaptureSystem
2 Oqus IR (infrarot) Kameras
1 Oqus Hochfrequenz IR
Kamera
1 A/D Wandler
43 Passivmarker
QUALISYS TrackManager
(QTM) Software
1 Digitalkamera Panasonic
NV-GS35
1 Roland EDIROL UA-25EX
1 Headset
Datenanalyse
Markerkonfiguration
2,5 mm für Lippen | 4 mm für
bewegliche Regionen wie Kinn,
Wangen, Augenbrauen, Nase,
Augenlider | 7 mm für weniger
bewegliche Regionen wie Stirn,
Schläfen, Nasenrücken, Hals |
10 mm für die rigiden Kopfbewegungen
In einem ersten Schritt wurden die akustischen Daten auf Silben-
Diese so aufbereiteten audiovisuellen Daten ermöglichten eine
ebene segmentiert, Phrasengrenzen und prominente Silben nach
dem Notationssystem GToBi annotiert.
erste statische Analyse, die vier Sprecher und eine Minute ihrer
Erzählung umfasst.
Gesamtanzahl der Silben,
Anzahl sowie der prozentuale Anteil der prominenten
Silben pro Sprecher, Silbenkategorisierung: prominente
Silben innerhalb der Intermediär- bzw. Intonationsphrase
(A), nicht prominente Silben
am Ende einer Intermediärbzw. Intonationsphrase (B),
Prominente Silben am Ende
einer Intermediär- bzw. Intonationsphrase (A/B).
Audiovisueller Datenkorpus
Sieben Sprecher wurden gebeten drei Minuten in freier Rede von
ihrem letzten Urlaub zu erzählen, während synchron Audio- und
Videoaufnahmen erstellt, sowie Motion-Capture-Daten mit dem
Motion-Capture-System erfasst wurden.
PRAAT: von oben nach unten: Audiospur, Spektogramm mit F0-Kurve (blaue Linie) und Intensitätskurve (gelbe
Linie), Wortsegmentierung, Silbensegmentierung nach SAMPA-Schema, Annotation der prominenten Silben
nach GToBi, Annotation der Grenztöne nach GToBI, Annotation der Phrasengrenzen nach GToBi
Durch eine genauere Betrachtung der aufgezeichneten Videos
wurde eine Annotation der Kopf- und Gesichtsbewegungen sowie der allgemeine Gesichtsausduck der Sprecher vorgenommen. Regionen wie Mund, Augen, Augenbrauen, sowie Kopfbewegungen und der emotionale Gesichtsausdruck bei Freude,
Ärger, Erstaunen usw. waren dabei von Interesse.
QTM: Darstellung der erfassten Bewegungspunkte in einem 3D Koordinatensystem mit den entsprechenen
Beschriftungen und Koordinaten der Trajektories.
gungen, die mit prominenten Silben einhergehen. Dennoch gibt
es individuelle Unterschiede bei den einzelnen Sprechern.
Folgenes Beispiel bezieht sich auf Silben der Kategorie A:
Sprecher
Sprecher
Sprecher
Sprecher
1:
2:
3:
6:
33.8
30.0
49.2
30,9
%
%
%
%
RotationsRotationsRotationsRotations-
und
und
und
und
14.7
33.3
15.3
25.5
% Translationsbewegungen
% Translationsbewegungen
% Translationsbewegungen
% Translationsbewegungen
Prozentualle Darstellung der Rotation (blau), Translation (grün) und eine Mischform aus Rotation
und Translation (grau) des Kopfes von vier Sprechern im Verhältnis zu den (A)-, (B)- und (A/B)-Silben
Durch die freie Erzählung verhielten sich die Sprecher auf natürliche Art und Weise, so dass eine Untersuchung von natürlichen
Bewegungen möglich ist. Zudem bieten die Erzählungen eine
große Vielfalt an prosodischen Merkmalen, da sie unterschiedlich lange Sätze, Pausen und Häsitationen aufweisen.
Erste Ergebnisse zeigen eine deutliche Tendenz zur Kopfbewe-
ANVIL: Darstellung des Annotationsfensters, Bezeichnungen der Spuren (links), von oben nach unten: Audiospur, F0-Kurve (blaue Line) und Intensitätskurve (rote Linie), Wortsegmentierung, Silbensegmentierung nach
SAMPA-Schema, Thema, Phrasen, Annotation der visuellen Cues
Analysen mit weiteren Sprechern, visuellen Cues und zusätzlichen
prosodischen Elementen wie die Grundfrequenz werden stattfinden. Für die Entwicklung eines Gesichtsmodells sind weitere Parameter nötig, die u.a. aus den MoCap-Daten gewonnen werden.