Verankerung und Alignierung der Töne im Mandarin

Transcrição

Institut für Maschinelle Sprachverarbeitung
– Experimentelle Phonetik –
Verankerung und Alignierung der
Töne im Mandarin Chinesischen
Ying Sun
Matrikelnummer: 1912003
Oktober 2005
Diplomarbeit
Diplomarbeit-Nr.: 42
Institut für Maschinelle Sprachverarbeitung (IMS)
Universität Stuttgart
Azenbergstr. 12
70174 Stuttgart
Betreuer: PD Dr. Bernd Möbius
WS 2005/2006
Uni-Stuttgart
Inhaltverzeichnis
1
Einleitung ........................................................................................................ 2
2
Der Ton im Mandarin Chinesischen ................................................................ 4
3
2.1
Die Deklination ....................................................................................... 4
2.2
Tonale Sprache-Chinesisch .................................................................... 4
Silbe und Silbenaufbau im Mandarin Chinesischen ........................................ 9
3.1
Der Silbenaufbau im Chinesischen......................................................... 9
3.2
Silbenstrukturklassen im Mandarin Chinesischen ................................ 12
3.2.1
Konsonant im Mandarin Chinesischen ............................................. 12
3.2.2
Vokal im Mandarin Chinesischen ..................................................... 13
3.2.3
Phonotaktik....................................................................................... 14
3.3
4
Textkonstruktion mit optimaler Abdeckung ........................................... 18
Vorarbeit für die Analyse ............................................................................... 23
4.1
Sprecher und Sprachaufnahmen .......................................................... 23
4.2
Lautsegmentierung, F0- und Zeit-Messungen ...................................... 24
4.2.1
Ein kurzer Überblick über das PRAAT Skript ................................... 25
4.2.2
Alignment nach Phonemen .............................................................. 27
4.2.3
F0-Messung ..................................................................................... 31
4.2.3.1
„Trimming Algorithmu“ .............................................................. 31
4.2.3.2
Bearbeitung der durch das PRAAT-Skript erzeugten Daten..... 34
5
Die Abbildung eines Modells......................................................................... 39
6
Statistische Analyse ...................................................................................... 73
6.1
ANOVA ................................................................................................. 73
6.2
Datengrundlage für die statistische Analyse ......................................... 75
6.3
Varianzanalyse ..................................................................................... 76
6.3.1
7
Ergebnisse der Varianzanalyse........................................................ 76
Ausblick ........................................................................................................ 84
Literaturverzeichnis ............................................................................................... 87
Anhang..................................................................................................................... I
-1-
Uni-Stuttgart
1 Einleitung
In mehreren Experimenten ist der Einfluss der Silbenstruktur auf den F0-Verlauf
nachgewiesen worden, z.B. House; d'Imperio; Ladd et al.; van Santen/Möbius.
Tonale Kontexteffekte wurden für das Chinesische nachgewiesen z.B. Xu u.a..
Im
Rahmen
dieser
Diplomarbeit
sollte
der
Einfluss
der
segmentalen
Zusammensetzung der Silbe sowie der Einfluss des tonalen Kontextes auf die
Realisierung der lexikalischen Töne im Mandarin-Chinesischen untersucht werden.
D.h., es soll untersucht werden, wie sich die Töne in allen tonalen Kontexten (mit
Ausnahme des neutralen Tons) realisieren, ob es stabile Alignierungen der tonalen
Gesten mit der zeitlichen und lautlichen Struktur der Silbe gibt, und inwiefern die
Alignierung der Töne von der Silbenstruktur und vom tonalen Kontext abhängt.
Das zu untersuchende Sprachmaterial soll die Silbenstruktur des MC systematisch
abdecken. Weiterhin sollen Tonrealisierungen in allen tonalen Kontexten (mit
Ausnahme des neutralen Tons) untersucht werden. Charakteristische Punkte
(Ankerpunkte) entlang der F0-Kontur der Töne werden in den Dimensionen Zeit
und Frequenz gemessen und statistisch als von der Silbenstruktur und vom
tonalen Kontext abhängige Variable dargestellt.
Als
Ergebnis
der
Diplomarbeit
soll
ein
Modell
vorliegen,
das
die
Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit von
Silbenstruktur und Kontext jeweils beschreibt.
Im zweiten Kapitel sollte ein Überblick über den lexikalischen Ton im Mandarin
Chinesischen zuerst gegeben werden, in dem sich die Arbeit bewegt. Es wird
weiterhin die verschiedenen mit den lexikalischen Tönen in Zusammenhang
stehenden Phänomene geklärt.
Im dritten Kapitel dann wird die Silbe als prosodische Einheit vorgestellt, wobei
zunächst die phonologische Bedeutung der Silbe besprochen wird, bevor der
Aufbau von Silben allgemein und im Chinesischen speziell behandelt wird.
-2-
Uni-Stuttgart
Das vierte Kapitel schildert den praktischen Teil dieser Arbeit, nämlich die
Ermittlung der Silbenstrukturklassen, die Konstruktion des Testtextmaterials, die
Durchführung der Sprachaufnahmen, die Lautsegmentierung und F0 Extraktion
durch das Skript in PRAAT und F0-Messungen.
Im fünften Kapitel werden die vom Kapitel vier in den Dimensionen Zeit und
Frequenz gemessenen Werten zuerst graphisch dargestellt, um eine regelmäßige
bzw. stabile Geste herauszufinden. Dadurch kann ein Modell vorliegen, das das
die Oberflächenvariation der F0-Kontur von tonalen Kategorien in Abhängigkeit
von Silbenstruktur und Kontext jeweils beschreibt.
Im sechsten Kapitel wird die statistische Analyse bzw. die Auswertung
durchgeführt.
Im siebten Kapitel wird schließlich ein Ausblick gegeben, wie die Ergebnisse der
Untersuchungen genutzt werden können, und wie das Modell weiter entwickelt
werden sollte, so dass das Modell die Oberflächenvariation der F0-Kontur von
tonalen Kategorien in Abhängigkeit von Silbenstruktur und Kontext jeweils in
quantitativer Form prädizieren kann.
Abschließend möchte ich noch meinem Betreuer, Bernd Möbius, für die
geduldsame Unterstützung bei allen Problemen danken, der mir bei der
Organisation und Durchführung der Sprachaufnahmen geholfen hat. Außerdem
danke ich meinem Kommilitonen, Manuell Kountz für die Zeit und Mühe, die er
aufgebracht hat, um mir bei der Korrektur der Rechtschreibung zu helfen. Auch
bedanke ich mich bei Kristina Spranger dafür, dass sie mir bei der statistischen
Analyse geholfen hat. Zum Schluss danke ich dem Autor der Literaturen über
Mandarin Chinesisch, Xu Yi, von Ihm habe ich viele sinnvolle Vorschläge für meine
Diplomarbeit bekommen habe.
-3-
Uni-Stuttgart
2 Der Ton im Mandarin Chinesischen
Im Folgenden soll das Phänomen des „Deklination“ zuerst betrachtet werden,
danach gebe ich einen kurzen Überblick über den lexikalischen Ton und ihre
Realisierung im tonalen Kontext im Mandarin Chinesischen.
2.1
Die Deklination
Die F0-Kurve einer Speech Äußerung („speech unterance“) wird hauptsächlich als
eine akustische Manifestation der suprasegmentalen Strukturen, wie Ton, Pitch
Akzent und Intonation, verstanden. Aber Vokal und Konsonant haben keine
invariant spektrographischen Repräsentationen. Die suprasegmentalen Strukturen
können keine eins-zu-eins „one-to-one“ Korrespondenz mit den betrachteten F0Mustern haben. Die Oberfläche der F0-Kontur muss nicht unbedingt den
unterliegenden suprasegmentalen Strukturen gleichen, weil vielen Variationen
während der Implementierung dieser Strukturen vorkommen können. Weshalb ist
es häufig schwierig, die F0-Muster (F0-patterns) durch unmittelbare Beobachtung
zu auffassen. Z.B. ist durch viele Wissenschaftler nachgewiesen, dass es das
Phänomen „Deklination“ im F0-Ablauf einer Äußerung gibt (Cohen u. ' t Hart, 1965;
Cohen, Collier u. ' t Hart, 1982). Dies ist auch in vielen Sprachen berichtet worden
(Spieß, 1945; Maeda, 1976; Cooper & Sorensen, 1981; Ohala, 1990; Shih, 1997).
Wie es in vielen anderen Sprachen nachgewiesen ist, wird der Deklinationseffekt
durch physiologische Faktor des Sprechproduktionsapparats verursacht. (z.B.
[Lieberman, 1967]). Im Kapitel Fünf kann das Phänomen durch visuelle Inspektion
der graphisch Darstellung der F0-Kontur bemerkt werden.
2.2
Tonale Sprache-Chinesisch
Um die Oberfläche F0-Muster besser zu verstehen, sollte man eine prosodischen
Strukturen finden, die relativ von der Intonation unabhängig sind und deren
grundlegende Spezifikationen man relativ besser verstehen kann. Diese
prosodischen Strukturen können für ihre Realisierung untersucht werden, wenn die
-4-
Uni-Stuttgart
F0-Konturen von den verschiedenen Faktoren beeinflusst werden. In der tonalen
Sprache können die lexikalischen Töne diesem Gegenstand dienen.
Die grundlegenden Spezifikationen der Töne können relative unabhängig von der
Intonation abgeschätzt werden, wenn die Intonation eine Konstant bleibt. Das ist in
vielen asiatischen tonalen Sprachen nachgewiesen worden (Bai, 1934; Chao,
1948, 1956, 1968; Abramson, 1962, 1976, 1978; Lin, 1965, 1988; Howie, 1976;
Chuang, Hiki, Sone & Nimura, 1971; Ho, 1976). Aus ihren Untersuchungen wird
festgestellt, dass die lexikalischen Töne hauptsächlich bezüglich der Höhe und
Form der Pitch-Kontur „pitch contour“ spezifiziert werden (Abbildung 2.2.1 ), es ist
beispielsweise schon nachgewiesen, dass die vier lexikalischen Töne H „High“
(auch
als
Ton1
geschrieben),
R-„rise“(Ton2),
L-„low“
(Ton3),
F-
„Falling“ (Ton4) außer dem Neutralen Ton in Mandarin Chinesischen jeweils die
Pitch Kontur wie „high-level“, „mid-rising“, „ low-dipping“, und „high-falling“ haben
(Chao, 1948, 1956, 1968; Lin, 1965, 1988; Howie, 1976; Chuang et al., 1971; Ho,
1976; Xu, 1997).
Abbildung 2.2.1: Tonale Realisierung von vier Tönen.
Die Abbildung 2.2.1 zeigt die vier tonalen Realisierungen des monosyllabischen
Worts /ma/, das in Isolation produziert wird. Die Zeit ist normalisiert. Die Dauer des
dritten Tons ist der längste Ton. Anbei zeigt der senkrechte Strich auf den F0Kurven die Granzen des Nasals /m/ und Vokals /a/.
-5-
Uni-Stuttgart
Dazu haben [Luo, Wang, 1957] nach der Phonemik noch ein „fünf Punkte Skalen“„five point scalas“ System für Mandarin Chinesisch entwickelt, in dem die vier Töne
jeweils nach der unterschiedlichen Tonhöhe nummeriert werden (Sieh Abbildung
2.2.2). Das System wird im Kapiteln Fünf häufig benutzt, um die graphische
Darstellung der F0-Kontur besser zu erklären.
Abbildung 2.2.2: „Fünf Punkte Skalen“
Mit Hilfe der an der rechten Seite stehenden Nummer von 1 bis 5 unterscheiden
sich die vier Töne hauptsichtlich miteinander und für die detaillierten Werten
interessieren wir uns tatsächlich nicht, als Beispiel wird „Ma“ jeweils mit den vier
Tönen wie in Tabelle 2.2.3 dargestellt [shen, 2005; Chao, 1930]:
Ton
Name des Tones im MC
Fünf Punkte Skalen
Beispiel
Ton 1
阴平(yang2 Pin2)
55 (wie „High“)
„妈，mā ”
Ton 2
阳平 (yin1 Pin2)
35 (wie „Rising“)
„麻，má ”
Ton 3
上声 (Shang4 Sheng1)
214 (wie „Low“)
„马，mǎ ”
Ton 4
去声 (Qu4 Sheng1)
51 (wie „Falling“)
„骂，mà ”
Tabelle 2.2.3: „Fünf Punkte Skalen“ für das Wort /ma/
Diese Töne versteht man als Kontur Töne „contour tones“. Im Vergleich dazu gibt
es in vielen nicht-asiatischen Sprachen noch Regeste Töne „register tones“ [Pike,
1948], weil sie eine einzelne unterliegenden Pitch Spezifikation haben, sowie H
(high), M (mid), oder L (low). Wenn diese unterliegenden Pitch Spezifikationen
-6-
Uni-Stuttgart
bekannt gegeben werden sind, kann man möglicherweise erklären, wie die
lexikalischen Töne mit den verschiedenen Faktoren, die die Oberfläche der F0Kontur formen, interagieren können.
Eine der Faktoren ist tonaler Kontext. In vielen tonalen Sprachen ist das
Phänomen, dass der Gipfel der F0-Kontur und die Kontur eines Tons von
benachbarten Tönen beeinflusst werden können, schon lange bekannt gegeben
[Hyman, 1973; Hyman, Schuh, 1974], z.B. wird das Phänomen in afrikanischen
tonalen Sprachen als „downstep“ bezeichnet, in der HLH tonale Sequenz wird
nachgewiesen, dass der Gipfel der zweiten F0-Kontur (H2) niedriger als der ersten
F0-Kontur (H2), weil H2 durch dem vorangehenden L-Ton abgesenkt. Anbei kann
das Phänomen Deklination noch als den Abwärtstrend der gesamten F0-Kontur in
einer Äußerung verstanden, zwischen den zwei Phänomenen könnte gewisse
Ähnlichkeit oder möglicherweise irgendeine Überlappung stehen [xu,1999], dazu
hat [Prieto, 1996] noch berichtet, dass Deklination wahrscheinlich gleichbedeutend
mit „Downstep“ ist.
Diese kontextuell tonale Variation wird auch als
„carryover assimilatory
effect“ gezeichnet. Im Vergleich dazu gibt es noch „anticipatory dissmilatory
effect“ (Gandour, Potisuk, Dechongkit & Ponglorpisit, 1992; Gandour et al., 1994;
Xu 1993, 1997), also, wenn ein Ton (Ton1) von einem L-Ton (Ton2) gefolgt wird,
wird der Gipfel der F0-Kontur des Tons (Ton1) gesteigert. Dieser Effekt wird noch
als
voraussehende
Steigerung
der
F0-Kontur
“anticipatory
raising”
oder
“regressive H-raising” verstanden. In vielen Sprachen, sowie im Thai, Mandarin
Chinesischen noch vielen afrikanischen tonalen Sprachen wird dieser Effekt
“anticipatory raising” schon berichtet. Diese Phänomenen können im Kapitel Fünf
durch die graphisch Darstellung offensichtlich bemerkt werden.
Tonsandhi
In kontinuierlicher Äußerung können sich die tonalen Kategorien manchen
lexikalischen Tönen in tonalen Kontext ändern, z.B. verwandelt sich der L-Ton im
R-Ton im Mandarin Chinesischen, wenn der L-Ton von dem anderen L-Ton gefolgt
wird. Dieses Phänomen wird als "Tone Sandhi" genannt, z.B.“Hen3 Hao3Æ Hen2
Hao3 (sehr gut)“. Noch wird "Tone Sandhi" von [Wang, Li, 1967] schon
nachgewiesen. In der Diplomarbeit wird "Tone Sandhi" wegen der großen Menge
-7-
Uni-Stuttgart
des Korpus in der Diplomarbeit nicht berücksichtigt. Also, die Wörter mit der LL
tonalen Sequenz werden nicht untersucht.
-8-
Uni-Stuttgart
3 Silbe und Silbenaufbau im Mandarin Chinesischen
Nachdem im vorigen Kapitel ein Einblick in den Ton gegeben wurde, um so das
thematische Umfeld der Diplomarbeit näher zu beleuchten, bietet dieses Kapitel
eine Beschreibung der Silbe im Mandarin Chinesischen. Die Silbe ist nämlich die
Grundlage der Untersuchungen und Auswertungen, die im Rahmen der
Diplomarbeit stattgefunden haben.
Zunächst wird der Regel des Silbenaufbaus im Mandarin Chinesischen vorgestellt,
aufgrund dieser Regeln werden die Silbenklassen dann konstruiert, die als
Grunddaten für praktische Analyse von dem Kapitel vier dienen.
3.1
Der Silbenaufbau im Chinesischen
Silbe ist die kleinste freie phonologische Einheit und bezeichnet eine Einheit aus
einem oder mehreren aufeinander folgenden Lauten (Phonemen), die sich in
einem Zug aussprechen lassen (Sprecheinheit). Die Definition der Silbe ist seit
lange eine umstrittene Frage. Viele Wissenschaftler haben versucht, mit einem
kurzen eindeutigen Satz eine universelle Definition der Silbe zu finden, aber jede
Sprache hat eigene Regeln für den Aufbau ihrer Silben. Im Mandarin Chinesischen
besteht eine Silbe normalerweise aus drei Komponenten: Onset, Rhyme, Töne. In
„Han4 Yu3 Pin1 Yin1 Fang1 An4“ (“the Precept of the chinese Pinyin”) wird
festgestellt, dass es 21 Konsonanten, 38 Rhyme und 4 Tönen im Mandarin
Chinesischen gibt. Außerdem, wenn in einer Silbe keine initiale Konsonant auftritt,
wird Onset als „Null Onset“ bezeichnet. Tatsächlich hat „Null Onset“ auch seine
akustische Manifestation, die im Kapitel Fünf durch das Spektrogramm direkt
visuell gesehen werden kann. Wenn wir Onset und Rhyme jeweils weiter
analysieren, kann der Aufbau der Silbe schematisch [Xu, Shirong, 1980]
dargestellt werden (Abbildung 3.1.1):
-9-
Uni-Stuttgart
Syllable
RHYME - final
ONSET - initial
(„FINAL HEAD“)
consonant
glide
„FINAL CENTER“
(„FINAL TAIL“/ CODA)
consonant
Nucleus / Vowel
Abbildung 3.1.1: der Aufbau der Silbe im Mandarin Chinesischen
Diese vier Komponenten: initiale Konsonant, „final head“-Gleitlaut, „final center“Vokal/Nukleus müssen nicht immer zusammen in einer Silbe auftreten, im
Allgemein sind Onset und Vokal innerhalb einer Silbe notwendig, die alle anderen
Komponenten nicht.
Das oben präsentierte Modell einer Silbe zeigt ein allgemeines Basis-Modell. Im
Chinesischen existieren eindeutige Beschränkungen für die Phonemkombination
im
silbeninitialen,
silbenfinalen
Konsonantencluster.
Die
phonotaktische
Möglichkeit und Einschränkung basieren sich auf diesem Modell. Nach der
Charakteristik des Chinesischen hat [Xu, 1986] dieses Modell (Abbildung 3.1.2)
weiter entwickelt, nämlich „Silbenaufbau der akustischen Phonetik“. Dieses Modell
passt jeder Silbe im Mandarin Chinesischen.
- 10 -
Uni-Stuttgart
Syllable
ONSET - initial
RHYME - final
5. transition
voicless plosive voiced aspirated
1
2
3
4
initial target value core of the target value final target value nasal ending
6
7
8
9
Abbildung 3.1.2: Silbenaufbau der akustischen Phonetik (nach Zhao)
Die Abschnitt 1-4 gehören zu dem Onset, 6-9 dem Rhyme, 5 sowohl dem Onset
als auch Rhyme, weiterhin zeigen die Abschnitte 4-5 initiale Transition und 6
entspricht etwa dem Gleitlaut, 7 dem Kern-Vokal, 8-9 dem final Offset „final tail“.
Das fundamentale Kategorie jeder Abschnitt des Modells wird wie folgend
tabellarisch dargestellt (Tabelle 3.1.3):
Abschnitt Kategorie jeder Abschnitt
Merkmale
1
Verschlusslaut, Frikativ
Stimmlose Abschnitt
2
Plosiv
Stimmlose Abschnitt
3
Lateral,
Frikativ
4
Aspiration
Behauchter Verschlusslaut und
Frikativ
5
Dynamische stimmhafte Segment
Transition vom Onset nach Offset
6
Gleitlaut
Wenn die Abschnitt 5 als Teil des
Onset angesehen wird, kann der
Gleitlaut
dann
als
„Final
Head“ von dem Rhyme genannt
werden.
7
Nukleus
Kernvokal
Nasal,
stimmhafter
- 11 -
Stimmhafte Abschnitt
8
9
3.2
Wenn Rhyme aus drei Vokale
„Triphtong“ besteht, wird diese
Abschnitt
als
finaler
Vokal
genannt.
Finaler Vokal
Nasal
Uni-Stuttgart
Außer „m“ ist Nasal die einzige
Konsonant,
die
im
„Final
Tail“ vorkommen darf. Akustisch
realisiert sich der Nasal nicht als
Onset-Nasal,
sondern
ein
nasalisierter Vokal.
Tabelle 3.1.3: Kategorie der Phonemen
Silbenstrukturklassen im Mandarin Chinesischen
Um den Einfluss der segmentalen Zusammensetzung der Silbe sowie der Einfluss
des tonalen Kontextes auf die Realisierung der lexikalischen Töne im Mandarin
Chinesischen zu untersuchen, mussten zunächst die relevanten Klassen von
Silben-Onset, -nuklei und -codas dargelegt werden. Dazu müssen verschiedene
Aspekte berücksichtigt werden. Was am wichtigsten ist, wie die Phoneme mit
einander kombinieren können, also die Phonotaktik. Um den Regel der
Phonotaktik im Chinesischen zu ermitteln, musste die Grundlage der Phonetik im
Chinesisch noch vorgestellt werden.
3.2.1 Konsonant im Mandarin Chinesischen
Im Chinesischen gibt es insgesamt 31 Phonemen, 22 davon sind konsonantische
Phoneme, 9 davon sind vokalische Phoneme. Innerhalb einer Silbe darf am
höchstens 4 Phonemen vorkommen, wie z.B. „liang“ <-> l-i-a-ng, und muss
mindestens ein Phonem vorkommen, wie „a“. Die 21 Konsonanten werden
kategorisiert (Sieh Tabelle 3.2.1.1):
- 12 -
Uni-Stuttgart
Konsonant
Beschreibung
Symbole
Verschlusslaut
stimmhaft: g, d, b
stimmlos: t, p, k
P_SH
P_SL
Frikativ
r, f, sh, s, h, x
F
Nasal
n, m, ng
N
Lateral
l
L
Affrikaten
z, c, zh, ch, j, q
A
Tabelle 3.2.1.1: Kategorie der Konsonant im Mandarin Chinesischen
3.2.2
Vokal im Mandarin Chinesischen
Ähnlich wie im Deutschen werden alle Vokale im Chinesischen nach den
verschiedenen Faktoren, wie der Zungenhöhe, Entfernung vom Zungenrücken
zum Gaumen, Hebungsrichtung der Zunge, Gespanntheit der Zunge und Lippen,
klassifiziert. Abbildung 3.2.2.1 zeigt die Zungenposition der Vokalen im Mandarin
Chinesischen. Darin kommen alle Monophtonge, Diphtonge, Triphtonge und
nasalisierte Vokalen vor.
Abbildung 3.2.2.1: Zungeposition des Vokals im Mandarin Chinesischen
- 13 -
Uni-Stuttgart
Es gibt insgesamt 8 Monophtonge, 9 Diphtonge, 4 Thiphtonge und noch alle
Vokal-Nasal (VN) Kombinationen. Sie werden jeweils tabellarisch dargestellt
(Tabelle 3.2.2.2).
Vokalkategorie Monophthong Diphthong
Symbole
M
D
Triphtong
T
Nasalisation
VN
Konkrete
Vokalen
an, ian, üan,
ei, ao, ai, ou,
uan, en, in,
a, o, e, i, u, ü, ia, ie, ua, uo, iao, iou, uai, uen, ün;
i, I, *e (er)
üe
uei
ang, iang,
uang, eng, ing,
ueng, iong, ong
*Bemerkung
„er“ kommt
meistens im
Beijing-Dialekt
vor: „Silbe+ER
Drei Gleitlauten: I, U, Ü
Drei
GleitDrei Gleitlauten: I, U,
lauten: I, U, Ü
Ü
Tabelle 3.2.2.2: Klassifikation des Vokals im Mandarin Chinesischen
Davon sind die alle drei „final head“, „i - /Yi/- I“, „ u -/Wu/-U“, „ü-/Yü/-U“ die
Gleitlauten. Wie vorher erwähnt wurde, dass im Mandarin Chinesischen eine Silbe
ohne Onset-Konsonant direkt mit einem Vokal anfangen kann, das wird als „NullOnset“ bezeichnet, z.B. „ai“, „yao“, „wai“. Wobei w-/u/ und y-/ü/ werden zwar in
Konsonantengruppen eingeteilt, aber in der Tat werden sie meistens wie Vokal im
Fall „Null-Onset“ gesprochen. Dieses Phänomen wird später beim Aufbau der
Silbenstrukturklasse berücksichtigt. Außerdem gibt es keine absolute strikte
Unterscheidung zwischen langen und kurzen Vokalen im Mandarin Chinesischen,
das hängt von dem Tontyp ab [shen, 2004].
3.2.3 Phonotaktik
Nachdem ein Überblick über die Grundlage der Phonetik im Mandarin
Chinesischen gewonnen worden ist, lege ich nun den Regel der Phonotaktik im
Mandarin Chinesischen dar.
Im Mandarin Chinesischen gibt es viele Distributionsbeschränkungen, die für
Anfangs- und Endkonsonantenfolgen strikt und nicht beliebig sind. Sonst, wenn die
- 14 -
Uni-Stuttgart
Silbe aus beliebigen ein bis vier Phonemen bestehen dürfte, betrüge die gesamte
Zahl der Silben ohne Töne wie folgend:
4
3
2
1
A31
+ A31
+ A31
+ A31
= 783091
Mit Tönen zusammen wäre:
783091 * 4 = 3132364
In der Tat reduziert die Phonotaktik des Chinesischen diese Zahlen deutlich, es
gibt im Chinesischen nur ca. 1260 Silben, wenn die Tönen dazu noch
berücksichtig werden, sonst nur ca. 400 Silben. Es ist beispielsweise nicht erlaubt,
dass innerhalb einer Silbe zwei gleiche Phoneme hintereinander stehen. Es gibt
die Beschränkungen zu den Konsonantenklassen im Auslaut. Die auslautenden
Konsonanten sind /n/ und /ŋ/. Wobei kann nur „n“ sowohl als Onset als auch als
Coda im Chinesischen vorkommen, aber „ng“ nur als Coda, das Nasal „m“ und die
alle anderen Konsonanten nur als Onset. Im Rhyme muss mindestens ein Vokal
vorkommen, am höchsten 3 Vokalen, nämlich Triphtong, der aus einem Gleitlaut,
Kernvokal und einer finalen Endung besteht.
Außerdem gibt es viele Beschränkungen für die Kombinierbarkeit von OnsetKonsonant und Rhyme-Vokal. Um die Phonotaktik der traditionellen Phonetik im
Mandarin Chinesischen
zubeschreiben, wird der erste Vokal des Rhymes
aufgrund der in Abbildung 3.2.2.1 dargestellten Zungeposition in vier Gruppen “si4
Hu1“ speziell klassifiziert, wobei wird der Rhyme, der mit dem Vokal „a/o/e-ohne
Gleitlaut“, „i“, „u“ und „ü“ anfängt, jeweils als KaiKou3Hu1-„offener Rhyme“,
Qi2chi3hu1-„gestreckter
Rhyme“,
He2kou3hu1-„runder
Rhyme“,
und
Zuo1kou3hu1-„gespritzter /herausstreckter Rhyme“ bezeichnet. Die vier Gruppen
dienen zum Regel der Kombinierbarkeit der Phonemen im Mandarin Chinesischen
(Sieh Tabelle 3.2.3.1).
KaiKou3Hu1/
ohne Gleitlaut
a
o
e
ai
ei
ao
ou
Qi2chi3hu1/
gestreckt
He2kou3hu1/
rund
Zuo1kou3hu1/
herausstreckt
i
ia
u
ua
uo
ü
ie
üe
uai
uei
iao
iou
- 15 -
an
en
ang
eng
ong
Uni-Stuttgart
ian
uan
üan
in
uen
ün
iang
uang
ing
ueng
iong
Tabelle 3.2.3.1: „Si4hu1“ von dem Rhyme
Die mögliche Kombinierbarkeit der Onset-Konsonanten und Rhyme-Vokalen wird
wie in Tabelle 3.2.3.2 dargestellt. Wo das Sonderzeichen „*“ steht, besteht die
Kombinationsmöglichkeit. Wo mit der rosa Farbe markiert wird, ist die Kombination
der Onset-Konsonanten und Rhyme-Vokalen nicht möglich. Anbei zeigt das „#“Zeichen, dass die Konsonanten nur mit „u“ kombinierbar sind (Tabelle 3.2.3.2 ).
Onset
Rhyme
offen gestreckt rund
herausgestreckt
labial
Labio-dental
bpm
*
*
#
f
*
#
dt
*
*
*
Alveolar
nl
*
*
*
*
Dorsal
jqx
*
*
Velar
gkh
*
*
Retroflex
zh ch sh r *
*
Dentalveolar
zcs
*
*
Null-Onset
ø
*
*
*
*
Tabelle 3.2.3.2: Kombinierbarkeit von Onset-Konsonant und Rhyme-Vokal
Aufgrund
der
Regel
der
Phonotaktik
im
Chinesischen
kann
die
Silbenstrukturformel (SF) wie folgend beschrieben werden:
(*C) (V) V (V/N)
Die Klammerungen zeigt eine Möglichkeit, d.h. Onset kann leer sein, nämlich
„Null-Onst“, das Nasal „N“ muss auch nicht immer in einer Silbe vorkommen, Vokal
kann Diphthong oder Triphtong sein, aber innerhalb einer Silbe muss mindestens
ein Vokal auftreten; das Sternchen zeigt die vorher beschriebene Regel der
Phonotaktik. Gemäß der Silbenstrukturformel wird das Korpus der Diplomarbeit
aufgebaut.
Um die Silbenstrukturklassen zu ermitteln, werden die Lexikoneinträger zunächst
- 16 -
Uni-Stuttgart
in ihre monosyllabischen Wortbestandteilen aufgespaltet. Um den konkreten
Lemmata zu abstrahieren, werden die vorher in Tabelle 3.2.2.2 bzw. Tabelle
3.2.1.1 dargestellten Symbolen benutzt. Mit Hilfe der Symbolen werden die
monosyllabischen Wortbestandteile zusammengesetzt und jeweils in Onset und
Rhyme aufgespaltet:
Vokal:
M Æ Monophtong
D Æ Diphthong
T Æ Triphtong
VN Æ Nasalisierte Vokale
Konsonant:
P_SH Æ stimmhafte Verschlusslaut
P_SL Æ stimmlose Verschlusslaut
F Æ Frikative
N Æ Nasale
L Æ Lateral
A Æ Affrikaten
Onsetklasse:
Klasse 1: SonorantÆ N, L
Klasse 2: ObstruentÆ P_SH, P_SL, F, A
Klasse 3: GleitlautÆ I, U, Ü
Klasse 4: Null_Onset
Rhymeklasse ( Nukleus + CodaklaaseÆN: n/ng):
Klasse M ÆM
Klasse D Æ D
Klasse T Æ T
Klasse VN ÆVN
Darunter dürfen nur „n“ bzw. „ng“ als konsonantische „final tail“/Coda innerhalb
einer Silbe vorkommen, außerdem ist der Nasal im Coda akustisch nicht wie
Konsonant, der Nasal und Vokal werden im Mandarin Chinesischen als ein Ganze
gesehen, dabei wird der Vokal nasalisiert, deshalb werden Nukleus- und
- 17 -
Uni-Stuttgart
Codaklasse in der Diplomarbeit als Rhymeklasse zusammengefasst. Um die im
Chinesischen auftretenden Silben möglichst vollständig abzudecken, wurden die
oben erwähnten Onset- bzw. Ryhmklasse dann noch kombiniert:
Onset + Ryhme:
(1) 1M, 1D, 1T, 1NV
(2) 2M, 2D, 2T, 2NV
(3) 3M, 3D, 3T, 3NV
(4) 4M, 4D, 4T, 4NV
Um die Kombination von zweisilbigen Wörtern möglichst vollständig abzudecken,
wird
die
vorher
erwähnte
Silbenstrukturform
(SF)
umgewandelt,
also
„C“ bezeichnet alle Konsonanten ohne Nasal „N“ und Lateral „L“. Es wird als
Modell_MC in der Diplomarbeit bezeichnet, nach diesem Modell werden die
Testtextmaterialien konstruiert:
(C) (V) V (V/N)Æ (C/N/L) V (N)
3.3
Textkonstruktion mit optimaler Abdeckung
Nach der Ermittlung der Silbenstrukturklassen kann das Textmaterial für die
Spracheaufnahmen
nun
konstruiert
werden.
Das
zu
untersuchende
Sprachmaterial soll die oben geschriebenen Silbenstrukturklassen systematisch
abdecken. Gleichzeitig werden alle 4 Töne mit jedem monosyllabischem Wort
kombiniert (Tabelle 3.3.1-3.3.4), z.B. „ba1, ba2, ba3, ba4, fan1, fan2, fan3, fan4“,
usw. Die aus monosyllabischen Wörtern bestehenden Textmaterialien werden in
der Diplomarbeit als Grunddaten konstruiert. Weiterhin werden die disyllabischen
Wörter
nach
der
Kombinationsmöglichkeit
von
zwei
Wörtern
(CVNNVN,
CVNCVN...) auf der Grundlage der Grunddaten unter den verschiedenen
Tonkombinationen (HH, HL, HR, HF...) mit der Ausnahme des neutralen Tons
weiter konstruiert.
- 18 -
D
Bai
Tao
Uni-Stuttgart
1
P_SH
P_SL
M
Ba
Ke
T
Guai
Tiao
NV
Bang/Beng
Ping/Pin
Feng/Fang/
Hao/Hua
Shuai
Fan/Xing/
Hong
Jin/Jing/
Chong/
Jie
Jiao
Chang/Qin/
Qing
Tabelle 3.3.1: Stimuli der Klasse 1
Bemerkung
Ton1-Ton4
Ton1-Ton4
F
Fa/Fu
A
Ji
2
L
N
M
D
T
NV
Li
Lüe
Liao
Liang
Mi/Mu/Ma
Nai/Nao/Mao Niao
Nan
Bemerkung
Ton1-Ton4
Ton1-Ton4
3
W
I
Ü
M
D
T
NV
Wa
Wai
Wan
Ye
Yao
Yan
Yu
Yue
Yuan/Yun
Bemerkung
Ton1-Ton4
Ton1-Ton4
Ton1-Ton4
4
ø
M
A
D
T
NV
Ao
Ai
An
Bemerkung
Ton1-Ton4
Ton1-Ton4
Ton1-Ton4
Um es zu untersuchen, ob die Silbenstruktur auf den F0-Verlauf im tonalen
Kontext durch die benachbarte Silbestruktur beeinflusst werden kann, wird die
Wortkombinationsklasse des disyllabischen Wortes aufgrund des Modelle
(Modell_MC) nun konstruiert (Tabelle 3.3.5). Darunter unterscheiden sich die
Klassen jeweils durch die verschiedenen Kombinationen der ersten und zweiten
Silbe, in der ersten Silbe wird der Vokal wie in Abbildung 3.2.2.1 dargestellten
Stelle jeweils nach „High“ und „Low Vocal“ klassifiziert, zudem wird das Coda in
der Silbe berücksichtigt (mit oder ohne Coda); in der zweiten Silben wird das
Onset-Konsonant jeweils nach Null-Onset, Nasal/Lateral und Konsonant außer
Nasal/Lateral klassifiziert.
- 19 -
Uni-Stuttgart
Wortkombinationsklasse
11
Silbe 1
(C/N) V
Silbe 2
(C/N/L) V(N)
*Bemerkung
High/low vocal
12
(C/N) *VN
(C)V(N)
High Vocal
13
(C/N) *VN
(C)V(N)
Low Vocal
14
(C/N) *VN
N/L V(N)
High Vocal
15
(C/N) *VN
N/L V(N)
Low Vocal
Tabelle 3.3.5: Silbenklasse des disyllabischen Wortes
Nachdem die Wortkombinationsklassen dargelegt werden sind, kann die
Konstruktion von disyllabischen Textmaterialien für Sprachaufnahmen beginnen.
Nach Klassenzugehörigkeiten werden die Stimuli sortiert. Außerdem soll die
Stimuli mit den 16 verschiedenen Tonalkombinationen kombiniert werden (Sieh
Tabellen 3.3.6-3.3.10). Aber nur werden die monosyllabische und disyllabische
Wörtern in der Diplomarbeit berücksichtigt, weil die meisten chinesischen Wörter
disyllabisch
sind.
So
werden
die
trisyllabischen
oder
polysyllabischen
„mehrsilbigen“ Wörter in der Diplomarbeit nicht untersucht.
11 (C/N)V+(C/N/L)V(N):
Töne
H
R
L
F
H
R
L
- Ba Ke
- Fa Tiao
- Ji Ke
- Guai Guai
- Ji Ke
- Jie Hao
- Tiao Jiao
- Yao Tiao
- Tiao Jie
- Jie Jiao
- Ji Jie
- Yan Tao
- Jie Fu
- Ke Tiao
*LL
- Guai Wan
- Wa Fang
- Tiao Fa
- Jiao Tiao
- Tiao Yuan
- Nai Ji
- Guai Jie
- Ji Jiao
F
- Fa Ji
- Fa Jiao
- Hong Ye
- Jie Bai
- Fa Yuan
- Tao Yan
- Ai Hao
- Fa Ji
*LL: Die LL tonale Sequenz hat sich zur RL-Sequenz geändert. Es wird als
phonologische Ton-Sandhi bezeichnet, das Phänomen wird in der Diplomarbeit
nicht berücksichtigt, deshalb werden keine Stimuli unter den LL-Sequenzen in den
disyllabischen Silbenstrukturklassen konstruiert.
- 20 -
Uni-Stuttgart
12 (C/N)V N+ (C)V(N):
Töne
H
R
L
F
H
R
L
- Bang Jiao
- Fang Yuan
- Feng Bai
- An Bang
- Feng Qing
- Fang Fa
- Nan Fang
- Nan Xing
- Fan Xing
- Fan Xing
- Chang Yan
- Chang Yuan
- Fan Ji
- Fang Fu
*LL
- Fan Fang
- Fan Chang
- An Jie
- Liang Xing
- An Feng
- An Fa
- Fang Xing
- Fan Fa
F
- Feng Yun
- Feng Fu
- Fang Ai
- Fang Ke
- Fan Pin
- Fan Fu
- An Hao
- Fan Ji
13 (C/N)V N+ CV (N):
Töne
H
R
L
F
H
- Qing Feng
- Chong Ji
- Ping Fang
- Ping An
- Qing An
- Xing Qin
- Xing Hua
- Pin Jie
R
L
- Qing Jie
- Qing Fu
- Qing Fu
- Qing Jiao
- Ping Fang
- Ping Fan
- Pin Fan
- Ping Jiao
- Pin Xing
*LL
- Pin Ji
- Xing Qing
- Pin Qing
- Xing Fu
- Xing Hao
F
- Qing Fu
- Qing Ke
- Ping Jie
- Pin Fu
- Chong Ai
- Qing Ke
- Xing Yun
- Qing Xing
14 (C/N) VN + N/L V(N):
Töne
H
R
L
F
H*
- Fang Ma
- Yan Ma
- Feng Ma
- Wang Ma
- Feng Ma
- Liang Ma
- Feng Ma
- Fan Ma
R
L
- Feng liang
- An Ma
- Feng Mi
- Feng Niao
- Fang Liang
- Nan Liao
- Fang Nan
- Chang Li
- Wan Nan
*LL
- Chang Nan
- Fang Liao
- Fang Mi
- Feng Li
- An Li
- 21 -
F
- Fang Lüe
- Dang Liang
- Nan Nai
- Fan Mi
- Fan Mu
- Nan Liao
- Fan Liang
- An Li
Uni-Stuttgart
15 C/N VN + N/L V(N):
Töne
H
R
L
F
H*
R
L
- Qing Mao
- Qing Liang
- Qing Li
- Xing Ma
- Chong Liang - Chong Mi
- Hong Mao
- Hong Mao
- Xing Li
- Ping Ma
- Yun Nan
- Qing Li
- Chong Mao
- Jing Min
*LL
- Yun Ma
- Min Nan
- Jin Ma
- Yun Liang
- Pin Li
- Qing Ma
- Yun Li
- Yun Mu
F
- Qing Li
- Qin Li
- Ping Mu
- Hong Mu
- Xing Mu
- Jin Mi
- Jin Li
- Jin Liang
H*: In den mit blauer Farbe markierte H* Spaltern (Tabellen 3.3.9 - 3.3.10) haben
die meisten Wörter fast keine Bedeutungen. Es ist schwierig, unter diesen TonalKombinationen passende Wortkombinationen mit sinnvollen Bedeutungen zu
finden.
Nun werden die oben aufgebauten monosyllabischen und disyllabichen Stimuli in
beliebiger Reihfolge ausgewählt und dann jeweils in den Trägersatz „shuo1 le __
zhe4 ge4 ci2“ eingebettet, damit die koartikulatorischen Effekte unter einem
konstant Kontext besser kontrolliert werden können. Anbei trägt das Wort
„le“ einen neutralen Ton, damit die Stimuli von dem Trägersatz möglicherweise
nicht beeinflusst werden.
- 22 -
Uni-Stuttgart
4 Vorarbeit für die Analyse
Nach
der
Ermittlung
der
Silbenstrukturklassen
und
Konstruierung
der
Testtextmaterialien mit optimaler Abdeckung konnte die Sprachaufnahmen nun
beginnen. Die aufgenommenen Daten dienen später zu den graphischen
Darstellungen und statistischen Untersuchungen.
4.1
Damit
Sprecher und Sprachaufnahmen
eine
relativ
große
Variationsbreite
an
Frequenzwerten
und
Intonationsmustern erfasst werden konnte, wurden sowohl drei männliche als auch
zwei weibliche Sprecher aufgenommen. Wegen der großen Menge des Korpus
werden die zwei Besten davon ausgewählt. Die zwei Sprecher, nämlich die
weibliche Sprecherin „Dai“ und der männliche Sprecher „Yang“, sind ChinesischMuttersprachige. Der Sprecher „Yang“ ist in Beijing geboren und aufgewachsen
und lebte immer in Beijing, bevor er nach Deutschland kam; die Sprecherin
„Dai“ hat in Beijing studiert und war nebenberufliche Moderatorin, als sie in Beijing
studierte. Im Moment studieren sie beide an der Universität Stuttgart. Wegen der
statistischen Analyse werden sie im folgenden Ablauf dieser Arbeit jeweils als
Sprecher1 (Sprecher Yang) und Sprecher2 (Sprecherin Dai) nummeriert.
Die Aufnahmen wurden mit einer Abtastfrequenz von 16 kHz und einer Auflösung
von 16 Bit durchgeführt. Hierbei wurden die Stimuli im Trägersatz unter einer
möglichst natürlichen Intonation und normalen Geschwindigkeit ausgesprochen.
Abbildung 4.1.1 zeigt den von dem Sprecher 1 gesprochenen Satz „shuo1 le jiao2
zhe4 ge4 ci2“:
- 23 -
Uni-Stuttgart
Abbildung 4.1.1: Ausschnitt aus „shuo1 le jiao1 zhe4 ge4 ci2“, Sprecher 1
Unter dieser Weise wird jeder Satz von jedem Sprecher zweimal wiederholt. Das
gesamte Aufnahmekorpus bestehen aus 1496 Sätzen:
Monosyllabische Wörter: 2 Sprecher*2 Wiederholungen*56 Stimuli*4 Tönen = 896
Disyllabische Wörter: 2 Sprecher * 2 Wiederholungen * 150 Stimuli = 600
Gesamte Summe = 896 + 600 = 1496
4.2
Lautsegmentierung, F0- und Zeit-Messungen
In diesem Kapitel wurde die Sprachdaten in digitaler Form mit Hilfe der Software
PRAAT segmentiert. Vor der Lautsegmentierung wurde die Software PRAAT und
das Programm für die Extrahierung der Werten zuerst vorgestellt, die für die
graphische Darstellung und statistische Analyse in den späteren Kapiteln zur
Verfügung stehen.
- 24 -
Uni-Stuttgart
4.2.1 Ein kurzer Überblick über das PRAAT Skript
Vor dem Alignment nach Phonemen sollte ein kurzer Überblickt über das PRAAT
Skripts von [Xu, 1999 ] zuerst gegeben werden, weil das PRAAT Skript vor dem
Anfang des Alignments laufen lassen müssen. Der detaillierte Kommentar siehe
Anhang 1. Der oberflächliche Prozess des Skripts ist wie folgend:
a. Das PRAAT Skript sollte zuerst mit den „*.wav“-Dateien zusammen in einem
Ordner gespeichert werden;
b. Öffnen das PRAAT , dann wählen “Open PRAAT Script” von dem PRAAT
Menü;
c. Suchen das PRAAT Skript und legen es im Dialog Fenster fest. Nachdem das
Skript im Fenster geöffnet worden ist, wählen „run“ von dem „Run “ Menü;
d. Die drei Fenster, die von 1 bis 3 in der Abbildung 4.2.1.1 nummeriert werden,
werden dann anscheinen;
- 25 -
Uni-Stuttgart
Abbildung 4.2.1.1: der Laufprozess des Skripts in PRAAT
Das Fenster 1 zeigt den Waveform mit dem „Vocal Pulse markings“ an, die durch
PRAAT automatisch generalisiert werden. Hier kann man manuell die falschen
Markierungen korrigieren, sowie die fehlenden Markierungen manuell einsetzen,
offensichtliche doppelte Markierungen löschen.
Das Fenster 2 zeigt den Waveform und das Spektrogramm zusammen mit dem
optionalen „Pitch Tracks“, „Formant Tracks“, „Vocal Pulse Markings“, usw. Auf dem
unteren Teil des Fensters stehen zwei Label-Felder, nämlich „Intervall“- und
„Point“-Feld. Man kann darauf nach Bedarf der Analyse, verschiedene Grenzen,
Laute, usw. markieren.
Wenn der manuelle Korrektur und das Label fertig sind, sollte man das Fenster 3
betrachten und auf „continue“ klicken, dann werden die folgenden Aktionen
- 26 -
Uni-Stuttgart
passieren:
„Vocal Pulse“ und Label werden automatisch jeweils in der „*.pulse“- und
„*.label“-Datei gespeichert. Gleichzeitig werden die Dateien sowie „*.f0“-,
„*.timenormf0“-, „*.actutimenormf0“-, „*.samplef0“-, „*.means“-Datei mit Hilfe
des Skripts automatisch erzeugt und gespeichert. Die Daten davon sind je nach
Bedarf der Analyse und verschiedenen Algorithmus extrahiert worden. Die Dateien,
die für statistische Analyse gebraucht werden, sowie „*.f0“, „*.timenormf0“ und
„*.actutimenormf0“, werden in den späteren Kapiteln ausführlich erklärt sollen.
4.2.2 Alignment nach Phonemen
Nachdem ein kurzer Überblick über PRAAT und das PRAAT-Skript von [Xu, 1999]
gewonnen worden ist, kann ich das Alignment nach Phonemen nun beginnen.
Anbei werden nur die vorher erwähnten Stimuli in PRAAT manuell annotiert, aber
der Trägersatz nicht. Nach dem PRAAT-Skript von [Xu, 1999] werden alle
Trägersätze nicht markiert, nur die alle für statistische Analyse zur Verfügung
stehenden Werten der Zielwörter, die 1496 Stimuli also, extrahiert, wo keine
Markierung steht, wird durch das Programm vernachlässigt.
Um es zu untersuchen, ob es stabile Alignierungen der tonalen Gesten mit der
zeitlichen/lautlichen Struktur der Silbe gibt, werden die Phonemgrenzen sowie
Kern-Vokal, Gleitlaut und stimmhafte Konsonant im Onset und Offset (z.B. „ng/n“)
von den Zielwörtern markiert. Wo stimmlose Konsonant steht, wird natürlich leer
gelassen. Besonders werden die Silbengrenzen der disyllabischen Wörter markiert,
so wie Onset der Silbe 1, Offset der Silbe 1, Onset der Silbe 2, Offset der Silbe 2.
Die VN-Phonemgrenze liegt im “Vocal Pulse” (VP), wo die Mundhöhle eindeutig
geschlossen ist. Die Evidenz für den Moment der Mundhöhleform sowie
„offen“ und „geschlossen“ kann sowohl von dem Spektrogramm als auch von der
Waveform abgeleitet werden.
Wenn zwei Nasals (oder ein Nasal und ein Latral), d.h., Nasal-Offset der ersten
Silbe und Nasal-Onset der zweiten Silbe „CVN (N/L)VC“, nacheinander stehen, ist
es manchmal schwer, ihre Silbengrenzen vom Spektrogramm direkt zu lesen,
dazu hat [Xu, 1998] schon untersucht, er hat die zwei Nasals zusammen als eine
- 27 -
Uni-Stuttgart
Einheit segmentiert und durch eine spezielle Analyse die Position ihre
Silbengrenze festgestellt. In der Diplomarbeit ist die Alignierung dieser
Silbengrenzen erfolgreich geschlossen, also, die Phonemgrenzen zwischen dem
Nasal-Offset der ersten Silben und Nasal-Onset der zweiten Silben sind vom
Spektrogramm direkt gelesen und markiert worden.
Abbildung 4.2.2.1 zeigt diese Arbeitsschritte. Man kann die falsche Markierungen
manuell korrigieren, sowie eine fehlende Markierung einsetzen und offensichtliche
doppelte Markierungen löschen.
Abbildung 4.2.2.1: Die Alignmentierung der Silbenstruktur CVN
Im Satz „shuo1 le Nai1 zhe4 ge4 ci“ wird „Nai1“ auf dem Intervall Feld nach zwei
Intervalle, nämlich dem Intervall 1 „n“ und Intervall 2 „ai“, segmentiert.
Es gibt außerdem speziale Phänomen beim Alignment, nämlich „Glottal-Stop“ und
„Creaky voice“. Abbildung 4.2.2.2 zeigt das Phänomen „Glottal-Stop“ für das Word
„a1“. Das Phänomen Glottalisierung („Creaky Voice“) erfolgt häufig bei dem
Konsonant-Vokal-Übergang, wenn ein Nasal oder ein Lateral vor einem
- 28 -
silbeninitialen
Vokal
beispielsweise
Uni-Stuttgart
auftritt.
In
diesem
Fall
beginnt
die
Glottalisierung bereits gegen Ende des vorausgehenden Nasals oder Laterals. Im
Chinesischen treten häufig „Creaky Voice“ Phänomen bei dem L-Ton und F-Ton
auf. Abbildungen 4.2.2.3-4.2.2.4 zeigen das Phänomen „Creaky voice“.
Abbildung 4.2.2.2: Glottal-Stop im H-Ton - „a1“, Sprecher 1
In Abbildung 4.2.2.3 bricht der Teil am Ende der F0-Kurve wegen der „creaky
voice“- Phänomen ab, er wird beim Labeln nicht berücksichtigt.
- 29 -
Uni-Stuttgart
Abbildung 4.2.2.3: „Ceaky voice“- im L-Ton -„Nai4“, Sprecher 1
Abbildung 4.2.2.4: „Ceaky voice“ im LH-Ton - „Nan3“, Sprecher 1
- 30 -
Uni-Stuttgart
In Abbildung 4.2.2.4 tritt der Abbruch der F0-Kontur bei dem L-Ton im
Chinesischen häufig auf. Dieser Fall ist nicht vermeidbar. Der Professor [Shen,
2004] von Beijing-Universität hat schon nachgewiesen, dass das Phänomen des
Abbruchs der F0-Kontur im L-Ton jede Zeit passieren kann. Es ist schwer, manuell
das Signal hinzufügen, wo die Stelle des Abbruchs der F0-Kontur steht. Weil es
unklar ist, wo ein Signal, und wie viel Signal gesetzt werden soll. Sonst wird der
extrahierte F0-Wert nicht mehr stimmen, weil er nicht wahr ist. Dieses Problem
wird durch den Algorithmus „Trimming Alorithmu“ im PRAAT Skript von [Xu,
1999] im Wesentlichen gelöst. Aber eine absolute Lösung zu finden, ist nun noch
schwer. Dieser „Trimming Alorithmu“ wird im nächsten Kapitel detailliert erklärt
werden.
4.2.3 F0-Messung
Während des Aligments und der Überprüfung der manuell gesetzten Label werden
F0-Messungen mit Hilfe des PRAAT Skripts gleichzeitig durchgeführt. Also, für
jeden einzelnen der 1496 Stimuli wird der Grundfrequenzverlauf aus dem Signal
durch das PRAAT Skripts automatisch herausgefiltert. Anbei wird das von dem
letzten Kapitel erwähnte Problem, nämlich „creaky voice“, durch den Algorithmus
„Trimming Alorithmu“ aus dem PRAAT Skript im allgemeinen gelöst werden.
Außerdem kann der Algorithmus „Trimming Alorithmu“ die F0-Kurve glätten.
4.2.3.1 „Trimming Algorithmu“
Nun sollte der Algorithmus „Trimming Algorithmu“ im Detail vorgestellt werden.
Die Markierung von „Vocal Pulse“ und Annotation der Segmenten für jeden
Stimulus werden in PRAAT durchgeführt und mit Hilfe des von [Xu, 1999]
geschriebenes PRAAT-Skripts werden die Signale bearbeitet. Im Skript wird eine
spezielle Berechnung konstruiert, nämlich „Trimming Algorithmu“, so werden die
zeitlichen Dauer des „vocal cycles“ in F0-Werten umgerechnet, gleichzeitig werden
die F0-Kurve geglättet. Dieser Algorithmus „Trimming Alorithmu“ wird in der
Anhang 1 verfügt.
- 31 -
Uni-Stuttgart
Der „Trimming Algorithmus“ ist besonders effektiv für die Glättung der scharfen
Spitzen im rohen F0-Ablauf, es wird häufig an der Anschlussstelle des Nasals und
Vokals gesehen, wie die dünne Linie in Abbildung 4.2.3.1.1 gezeigt wird. Abei
zeigt das Symbol „+“ die Grenze des Vokals und Nasals:
Abbildung 4.2.3.1.1: „Trimming Algorithmu“- die geglättete F0-Kurve des
Satzes „mao mi na mao mi“ [Xu, 1999]
Die scharfe Spitzen treten häufig auf, wenn das Programm „Vokal-cycleMarkierung“ von PRAAT seine Markierung von einer der mehrfachen Spitzen oder
Tälern in einem „Vocal cycle“ auf die anderen verschiebt, wie das „Vocal
cycle“ zwischen dem Wort /na/ und dem weiteren /mao/ gesehen wird (Abbildung
4.2.3.1.1).
Der Algorithmus gleicht diesen scharfen Spitzen sehr effektive ab. Die
Segmentation
liefert
akkurate
„Ton-Segment-Alignment-Informationen“.
Die
Glättung verringerte die zufällige Variationen der F0-Kontur und versichert
gleichzeitig die folgende akkurate Abmessung der Position und Wert der Spitzen
der F0-Kontur und ihrer Tälern.
Die Wirkung der Algorithmen wird mit den dicken Linear bezeichnet. Anbei werden
die getrimmte Grundfrequenz und aktuelle Zeit durch das Programm automatisch
in der „*.f0“-Datei und der „*.PitchTier“-Datei, der durch PRAAT geöffnet werden
kann, gespeichert. Das Ergebnis der „a2.f0“-Datei wird beispielsweise in Tabelle
4.2.3.1.2 ausgezeigt:
- 32 -
Uni-Stuttgart
Zeit
F0-Werte
0.057
108.75
0.067
102.90
0.077
103.88
0.087
108.75
0.093
111.33
0.100
113.82
0.108
114.03
0.117
114.24
0.126
114.82
0.135
114.97
0.143
115.04
0.152
115.11
0.161
114.45
0.169
113.80
0.178
112.26
0.186
108.75
0.196
104.09
0.207
103.01
0.217
101.96
0.227
99.93
0.237
99.56
0.248
99.17
0.258
101.19
0.268
101.18
0.278
101.88
0.287
101.67
0.297
169.66
0.307
225.36
0.317
241.23
0.322
197.16
0.325
166.17
0.331
165.88
0.338
168.10
0.344
170.39
0.350
182.29
0.355
192.34
0.361
192.60
0.366
197.41
0.371
199.74
0.376
202.06
0.381
202.08
0.386
202.11
0.390
202.11
Tabelle 4.2.3.1.2: Die tabellarische Darstellung der „a2.f0“-Datei, Sprecher 1
- 33 -
Uni-Stuttgart
Um die f0-Kontur visuell zu kontrollieren und vergleichen, die geglätteten f0-Kurve
wurden weiter verarbeitet:
(a) „Zeit-Normalisieren“ der F0-Kurve für jede Konsonant- und Vokalsegment, d.h.,
eine predeterminierte Anzahl der F0-Punkten wird in gleichen Zeitabständen
von
der
geglätteten
f0-Kurve
jedes
Segments
genommen.
Diese
charakteristischen Punkte werden im weiteren Verlauf als Ankerpunkte
bezeichnet;
(b) der Mittelwert wird aus zwei Wiederholungen des gleichen Satzes in Zustand
der bestimmten tonalen Kombinationen gebildet und automatisch als
„*.means“ gespeichert.
Also, die Zeitnormalisierung diente zwei Hauptzwecken:
1. Sie macht der Mittelwertberechnung der Wiederholungen des gleichen Satzes
möglich;
2. Sie erleichtert den direkten Vergleich zwischen unterschiedlichen F0-Kurven.
Anbei sind die durch Zeitnormalisierung weggeworfenen Dauerinformationen für
Intonation auch relevant, sie sind immer existiert.
4.2.3.2 Bearbeitung der durch das PRAAT-Skript erzeugten Daten
Die Ergebnisse der geglätteten, Zeit normalisierten und gemittelten F0-Kourven
werden jeweils in der „*.f0“-, „*.actutimenormf0“-/ “*.timenormf0”- und „*.means“Datei für jeden Sprecher, also die Sprecherin „Dai“ und der Sprecher „Yang“,
gespeichert. Außerdem werden die gesamten Dauer jedes Segments gerechnet
und zusammen unter der „duation.txt“ -Datei gespeichert, in der man als eine
Hilfsdaten direkt lesen kann, ob sich der Dauer der Silbe mit den verschiedenen
Silbenstrukturen unterscheidet. Mit Hilfe der Daten aus dem „*.means“-Datei hat
[Xu, 1999] die durchschnittlichen F0-Kurven graphisch dargestellt, um die Effekte
des lexikalischen Tons, Silbenstruktur und des tonalen Kontexts auf F0-Kontur
direkt visuellen zu vergleichen und untersuchen. Aber wegen des speziellen
- 34 -
Uni-Stuttgart
Korpora, das sowohl aus dem einsilbigen als auch zweisilbigen Wort besteht,
werden nur die Dateien sowie die “*.timenormf0”-, „duation.txt“-Datei und
“*.actutimenormf0”-Datei für spätere Analyse gebraucht.
Die „*.actutimenormf0“-Dateien und die “*.timenormf0”-Dateien dienen zu den
späteren
graphischen
Darstellungen
und
statistischen
Analysen.
Die
„*.actutimenormf0“-Datei enthält die Zeit-Normalisierte Grundfrequenz. Die
Zeitskala bezieht sich auf die originale Zeit, die zum Erreichen des jeweiligen
Punktes vom Silbenbeginn ausgehend benötigt werden. Anbei wird die Onset-Zeit
des ersten Intervalls genullt. Gleichzeitig werden 10 Ankerpunkte in jeder Segment
entlang der F0-Kontur der Töne in den Dimensionen Zeit und Frequenz gemessen.
Alle Datentypen können durch jede graphische Software (wie z.B. in Excel oder
SPSS) geöffnet werden. Abbildung 4.2.3.2.1 zeigt die tabellarische Darstellung der
„Jie2.actutimenormf0“-Datei aus dem Satz „Shuo1 le jie2 zhe4 ge4 ci2 “ auf der
linken Seite, auf der rechten Seite wird die Tabelle durch Excel graphisch
dargestellt:
Zeit
0.026
0.052
0.078
0.105
0.131
0.157
0.183
0.209
0.235
0.261
F0
120.35
121.16
125.15
133.36
142.43
152.21
165.15
169.49
175.32
195.22
jie35
200
f0 150
F0
100
0
1
2
3
4
5
6
7
8
9
10 11
t
Abbildung 4.2.3.2.1: Tabellarische Darstellung der „Jie2.actutimenormf0“Datei und ihre graphische Darstellung, Sprecher 1
Der Unterschied zwischen der “*.timenormf0”-Datei und der „*.actutimenormf0“Datei liegt nur in der Zeitskala. Die originale Zeit in der “*.actutimenormf0”-Datei
wird in der „*.timenormf0“-Datei durch 1-10 ersetzt, die Punkte 11-20 gehören zu
dem Intervall 2, usw., je nach der Anzahl des Intervalls (der Segment) ändert sich
die Anzahl der Punkte (Sieh Tabelle 4.2.3.2.2).
- 35 -
F0
120.35
121.16
125.15
133.36
142.43
152.21
165.15
169.49
175.32
195.22
jie35
200
f0
Ankerpunte
F0_1
F0_2
F0_3
F0_4
F0_5
F0_6
F0_7
F0_8
F0_9
F0_10
Uni-Stuttgart
150
F0
100
0
0.1
0.2
0.3
t
Tabelle 4.2.3.2.2: Die tabellarische Darstellung der „jie2.timenormf0“-Datei
auf der linken Seite, graphische Darstellung der „jie2.timenormf0“-Datei auf
der rechten Seite, Sprecher 1
Im Satz „shuo1 le Liang4 zhe4 ge4 ci“ von dem Sprecher 1 wird „Liang4“ auf dem
Intervall-Feld jeweils nach dem Intervall 1 „l“ (Punkte 1-10), dem Intervall 2
„i“ (Punkte 11-20), dem Intervall 3 „a“ (Punkte 21-30), und dem Intervall 4
„ng“ (Punkte 31-40) segmentiert. Also, die vier Intervalle werden wie in Tabelle
4.2.3.2.3 dargestellt.
Weiterhin zeigt der mit Rosa gefärbte Spalt in Tabelle 4.2.3.2.4 die Phonemgrenze
bzw. Silbengrenze (je nach der Silbenstruktur) in jeden 10 Punkten. Anschließend
werden alle “*.timenormf0”-Dateien, die sowohl einsilbiges als auch zweisilbiges
Wort enthalten, zusammen durch das Programm von [Xu,1999] automatisch in der
„normf0.txt“-Datei gespeichert.
- 36 -
Ankerpunkte
F0_1
F0_2
F0_3
F0_4
F0_5
F0_6
F0_7
F0_8
F0_9
F0_10
F0
78.68
109.33
125.43
131.30
132.5
133.42
134.71
137.1
144.38
150.12
Ankerpunkte
F0_11
F0_12
F0_13
F0_14
F0_15
F0_16
F0_17
F0_18
F0_19
F0_20
F0
155.87
158.69
160.95
163.28
165.55
167.47
168.35
168
167.39
166.75
Uni-Stuttgart
Ankerpunkte
F0_21
F0_22
F0_23
F0_24
F0_25
F0_26
F0_27
F0_28
F0_29
F0_30
F0
162.04
158.9
153.07
148.15
143.17
138.18
133.48
129.84
126.44
125.71
Ankerpunkte
F0_31
F0_32
F0_33
F0_34
F0_35
F0_36
F0_37
F0_38
F0_39
F0_40
F0
121.42
119.42
117.62
116.49
116.31
116.13
114.86
113.37
112.35
112.34
Tabelle 4.2.3.2.3: Ausschnitt der tabellarischen Darstellung der
„Liang4.timenormf0“-Datei“
Name
ba1
feng2
liang2
liang2hao3
F0_1
107.72
167.50
110.79
176.72
F0_2
114.22
166.19
110.80
173.73
F0_3
115.08
160.92
111.25
173.47
F0_4
111.26
148.76
112.17
171.96
F0_5
102.48
132.86
113.09
170.33
F0_6
99.30
124.53
114.10
167.57
F0_7
101.76
119.40
115.15
164.86
F0_8
2266.57
114.29
116.20
161.31
F0_9
168.92
105.12
117.32
157.28
F0_10
199.74
104.66
117.82
155.55
Name
F0_11
F0_12
F0_13
F0_14
F0_15
F0_16
F0_17
F0_18
F0_19
F0_20
feng2
157.05
154.98
10188.62
14049.49
112.36
113.06
111.33
102.04
101.74
101.72
liang2
118.67
118.94
119.05
119.05
119.05
119.03
119.02
118.56
117.83
117.35
liang2hao3
141.08
130.76
122.08
116.66
112.72
111.74
110.67
110.10
110.55
111.22
Name
F0_21
F0_22
F0_23
F0_24
F0_25
F0_26
F0_27
F0_28
F0_29
F0_30
liang2
116.98
116.76
116.99
117.59
119.59
122.27
125.51
127.79
131.97
133.78
liao2hao3
112.34
113.54
114.88
115.50
116.25
117.25
118.47
120.66
121.44
121.52
Name
F0_31
F0_32
F0_33
F0_34
F0_35
F0_36
F0_37
F0_38
F0_39
F0_40
liang2
143.96
152.75
161.48
167.11
164.29
170.27
202.28
222.06
211.10
211.10
* liang2hao3
123.46
124.95
125.30
125.32
125.78
126.73
128.25
130.86
131.60
134.03
ba1
ba1
feng2
ba1
feng2
Tabelle 4.2.3.2.4: gemischte Ankerpunkte gemessen in den Dimensionen Zeit
und Frequenz
In Tabelle 4.2.3.2.4 kann man bemerken, dass bei „RL_Lianghao“ gibt es nur 40
Punkte statt 50. Es sollte nach dem Segment „L-i-a-ng“ und „ao“, also fünf
Intervalle annotiert werden, d.h. 50 Punkte. Wegen den großen Korpora werden
- 37 -
Uni-Stuttgart
die Daten in „normf0.txt“ weiter bearbeitet, die Daten der zweiten Silben aus den
zweisilbigen Wörtern werden nicht berücksichtigt und weggelassen.
Um
unterschiedlichen
F0-Kurven
der
unterschiedlichen
Silbenstruktur
mit
verschiedener Anzahl der Intervallen direkt zu vergleichen, werden nur 10 Punkte
aus allen „normf0.txt“-Dateien auswählt, nämlich je 10% ein Punkt. Die
nachgearbeiteten kompletten „normf0.txt“ von den zwei Sprechern werden jeweils
unter dem „Spssdaten_dai. xls“ und „Spssdaten_yang. xls“ gespeichert. Die in
den Dimensionen Zeit und Frequenz gemessenen 10 Ankerpunkte von allen
einsilbigen Wörtern und den ersten Silben aus den zweisilbigen Wörtern für
spätere statistische Analyse gebraucht. Als Beispiel wird der Ausschnitt der
„Spssdaten_yang. xls“-Datei in Tabelle 4.2.3.2.5 dargestellt:
Name
F0_1
F0_2
F0_3
F0_4
F0_5
F0_6
F0_7
F0_8
F0_9
F0_10
ba1
107.72
114.22
115.08
111.26
102.48
99.30
101.76
2266.57
168.92
199.74
feng2
166.19
148.76
124.53
114.29
104.66
154.98
14049.49
113.06
102.04
101.72
liang2
112.17
116.20
118.94
119.03
117.35
117.59
127.79
152.75
170.27
211.10
jie2
117.74
117.59
119.30
121.64
126.40
133.78
140.71
152.38
156.61
156.61
* liao2hao4
173.47
167.57
157.28
130.76
112.72
110.10
112.34
115.50
118.47
121.52
liang4
131.30
137.10
158.70
167.50
166.70
148.20
129.80
119.40
116.10
112.30
Tabelle 4.2.3.2.5: 10 Ankerpunkte gemessen in den Dimensionen Zeit und
Frequenz
- 38 -
Uni-Stuttgart
5 Die Abbildung eines Modells
Im folgenden Kapitel wollen wir uns mit der Untersuchung der Tonrealisierungen in
allen tonalen Kontexten (mit Ausnahme des neutralen Tons) beschäftigen, davon
sollte ein Modell vorliegen, das die Oberflächenvariation der F0-Kontur von tonalen
Kategorien in Abhängigkeit von Silbenstruktur und Kontext beschreibt.
Zuerst werden die tonalen Realisierungen der monosyllabischen Wörter graphisch
dargestellt, damit man einen Überblick über die vier lexikalischen Töne im
Mandarin Chinesischen gewinnen kann (Sieh Abbildungen 5.1-5.2) Weiterhin
sollte die gemeinsame Eigenschaft durch die visuell Inspektion der graphisch
dargestellten tonalen Realisierung von den disyllabischen Wörtern in Abhängigkeit
von Silbenstruktur und tonalen Kontext festgelegt werden (Sieh Abbildungen 5.3).
-
Monosyllabische Wörter
Klasse 1: Qing, Fang, Ba, Guai.
- 39 -
- 40 -
Uni-Stuttgart
- 41 -
Uni-Stuttgart
- 42 -
Uni-Stuttgart
- 43 -
Uni-Stuttgart
- 44 -
Uni-Stuttgart
Klasse 2: liang1-4, li1-4
- 45 -
Uni-Stuttgart
Klasse 3: wan1-4, wa1-4
- 46 -
Uni-Stuttgart
Klasse 4: a1-4, an
- 47 -
Uni-Stuttgart
Uni-Stuttgart
Abbildung 5.1: die graphischen Darstellungen der monosyllabischen Wörter,
Sprecher 1
- 48 -
Klasse 1: ba, guai, fang, qing
- 49 -
Uni-Stuttgart
Klasse 2: Li und Liang
- 50 -
Uni-Stuttgart
Klasse3: Wa, wan
- 51 -
Uni-Stuttgart
- 52 -
Uni-Stuttgart
Klasse4: a1, an1
- 53 -
Uni-Stuttgart
Uni-Stuttgart
Abbildung 5.2: Graphische Darstellungen für monosyllabische Wörter,
Sprecher 2
Disyllabische Wörter
- 54 -
- 55 -
Uni-Stuttgart
- 56 -
Uni-Stuttgart
- 57 -
Uni-Stuttgart
- 58 -
Uni-Stuttgart
- 59 -
Uni-Stuttgart
- 60 -
Uni-Stuttgart
- 61 -
Uni-Stuttgart
- 62 -
Uni-Stuttgart
- 63 -
Uni-Stuttgart
- 64 -
Uni-Stuttgart
Uni-Stuttgart
Abbildung 5.3: graphische Darstellung der disyllabischen Wörter, Sprecher1
und Sprecher2
- 65 -
Uni-Stuttgart
Abbildungen 5.1-5.3 zeigen die F0-Kurven der jeweils zweimal wiederholenden
Stimuli von den zwei Sprechern, nämlich
Sprecher 1 (Sprecher „Yang“) und
Sprecher 2 (die Sprecherin „Dai“). Anbei zeigen die Abbildungen 5.1-5.2 die F0Kurven der vier Töne von den monosyllabischen Wörtern und Abbildung 5.3 ist für
die F0-Kurven der disyllabischen Wörter.
Zu der Silbe, die das stimmhafte Konsonant-Onset enthält, fängt die F0-Kurve
gleichzeitig von dem Silbenanfang an, dagegen fängt die F0-Kurve von dem
stimmhaften Onset des Kernvokals an, weil sich der Grundfrequenz der
stimmlosen Konsonanten im Spektrogramm nicht realisieren.
Um eine Gemeinsamkeit der F0-Kontur jedes Tontypen zu finden, werden die alle
ausgewählten Stimuli in den Abbildung 5.1-5.2 mit dem gleichen Ton zusammen in
einer Abbildung gestellt, die vier Töne werden jeweils mit Hilfe der „Fünf Punkte
Skala“ nummeriert, z.B. zeigt Abbildung „Ton_55_Klasse1_Sprecher2“ die alle als
Beispiel ausgewählten Stimuli mit H-Ton vom Sprecher2 und die Abbildung
„Ton_35_Klasse1_Sprecher2“ mit R-Ton vom Sprecher2, usw.; außerdem wird ein
gleicher Stimulus mit vier Tönen in einer Abbildung zusammen gestellt, z.B. zeigt
die Abbildung „an_all_1“ von Sprecher2 das Wort „an“ mit allen vier Töne beim
ersten Sprechen,
und
„„an_all_2“ für die zweite Wiederholung, so kann man
direkt visuell untersuchen, wie sich die vier lexikalischen Töne unterscheiden.
Für die disyllabischen Wörter werden die Stimuli mit den verschiedenen
Silbenstrukturen unter der gleichen tonalen Sequenz jeweils in einer Abbildung
zusammengestellt, um die Aufgabe der Diplomarbeit zu erfüllen, also:
-
wie sich die Töne in allen tonalen Kontexten (mit Ausnahme des neutralen Tons)
realisieren;
-
ob es stabile Alignierungen der tonalen Gesten mit der zeitlichen und lautlichen
Struktur der Silbe gibt, und inwiefern die Alignierung der Töne von der
Silbenstruktur und vom tonalen Kontext abhängt.
Das Hauptgitternetz von X-Achse (Abbildung 5.3) zeigt jeweils die Silbegrenze und
Lautgrenze, es hängt davon ab, was für Silbenstrukturen die Silben haben und wie
viele Ankerpunkte genommen werden Sind. Weiterhin sind nicht nur die
Abbildungen
der
einzelnen
disyllbischen
Wörter
mit
verschiedenen
Silbenstrukturen als auch ihre zusammen gesetzten Abbildungen dargestellt
- 66 -
Uni-Stuttgart
worden, um eine direkt visuelle Inspektion zu bringen.
Von dem Skala kann man die Silben Grenze lesen, also für die Silben, in der nur
eine stimmhafte Laut entsteht, zeigt die ganze F0-Kurve diese Laut; für die Silbe,
die nach zwei Segmenten gelabelt werden, steht die Phonemgrenze an der Stelle,
wo in der X-Achse 5 steht, usw. Wegen der großen Mengen des Korpus werden
nur die Stimuli teilweise graphisch dargestellt. Von jeder Klasse werden jeweils
drei bis fünf Stimuli als Beispiel ausgewählt.
Durch die visuelle Inspektion der tonalen Realisierungen von monosyllabischen
Wörtern (Abbildung 5.1-5.2) kann man bemerken, dass die F0-Kurven des H-Tons
relativ flach sind und der Gipfel der F0-Kurven irgendwo vor dem Silben-Offset
auftaucht. Es ist auch offensichtbar, dass bei dem H-Ton der F0-Kontur am SilbenOffset oft nach unten fällt. [Shen, 2004] hat auch berichtet, dass der H-Ton nach
„fünf Punkte Skalen“ oft den Wert 544 oder 543 sogar 453 hat, das Phänomen hat
er als Deklination genannt. Dazu findet [Lin, 1965], dass die F0-kontur des
lexikalischen Tones in den drei Teilen aufgeteilt werden sollte, also „Onset-Section“,
„Tone-Section“ und
„Offset-Section“, weil die Tonhöhe hauptsächlich nur mit
dem„Tone-Section“ zu tun hat. Er hat außerdem nachgewiesen, dass die Teile
„Onset-Section“ und „Offset-Section“ vermutlich durch die Trägheit beim Vibrieren
der Stimmbänder und andere Faktoren beim Sprechen verursacht werden könnten.
Also, es gibt für den H-Ton zwar viele individuellen Variationen in den F0-Konturen,
aber ihre Formen sind konsistent in verschiedenen Silbenstrukturen. Außerdem ist
es uns auffällig, dass bei den zwei Sprechern oft ein F0-Fall rund um die Stelle von
dem Onset der F0-Kontur vorkommt, wenn eine Silbe einen initialen Frikativ
enthält. Das Phänomen wird durch den initialen stimmlosen Frikativ verursacht.
Im Vergleich zu dem H-Ton hat der R-Ton ein niedrigeres F0-Onset, anbei tritt der
Gipfel der F0-Kurve vom R-Ton sehr häufig kurz vor oder direkt am Silben-Offset
auf, also der Gipfel kommt innerhalb einer Silbe relativ später vor, aber wenn es
einen finalen Nasal in einer Silbe gibt, tritt die steigende F0-Kurve vom R-Ton ganz
oder teilweise in den finalen Nasal auf. Dazu hat [Xu, 1998] nachgewiesen, je
länger der relative Dauer des finalen Nasals ist, desto mehrere Teile der F0-Kontur
im Nasalsegment vorkommen. Der Dauer von dem Nasal-Offset kann zudem
durch die im Kapitel 4 erwähnte „duration.txt“-Datei direkt gelesen und
nachgewiesen werden.
- 67 -
Uni-Stuttgart
Dagegen hat der F-Ton eine spezielle F0-Kontur, der Gipfel seiner F0-Kontur tritt
oft in der letzten Hälfte der Silbe auf, aber er kann auch gleich am Anfang der
Silben vorkommen, es hängt von der Silbenstruktur ab, z.B. tritt der Gipfel der F0Kontur bei der Silben mit dem stimmhaften Konsonant-Onset relativ späterer auf,
wie „Wa4“, „Wan4“, „Li4“ und „Liang4“ sowohl bei Sprecher1 als auch bei
Sprecher2, im Vergleich dazu kommt er in den Silben mit stimmlosen KonsonantOnset bzw. Null-Onset relativ frührer vor, wie „An4“, „Ba4“ und „A4“ sowohl bei
Sprecher1 als auch bei Sprecher2.
Der L-Ton hat ein leicht niedrigeres F0-Onset als R-Ton. Wegen der
artikulatorischen Besonderheit „creacy voice“, die in der Abbildung 4.2.2.4
„Nan3“ schon erwähnt worden ist, realisieren sich die F0-Kurven des L-Tons nach
„the five Point scale“ oft nicht wie 214 sondern mehr wie 211112 oder 2132221 usw.
Es ist in der Abbildung 5.3 ist offensichtlich sichtbar, dass ein beträchtlicher Teil
der F0-Kurven bei dem H-Ton eine steigende Kontur hat, wenn ein F- oder ein LTon vor dem H-Ton steht, der relativ ein „low“-Offset hat, besonders offensichtlich
ist diese Phänomen, wenn das Konsonant-Onset der zweiten Silbe stimmhaft ist,
z.B. „LH_FengMa“, “LH_YunMa“, „LH_LiangMa“, „FH_FanMa“. Das ist von [Xu,
1999] schon nachgewiesen worden.
Bei dem R-Ton steigen die F0-Kurven zum großen Teil immer am finalen Teil der
Silbe auf, ohne den Silbedauer zu berücksichtigen. Das Onset der Steigerung von
der F0-Kontur kommt immer in der Mitte der meisten Silben vor. Von der
Abbildung5.3 kann man außerdem merken, wenn R- von einem L-Ton gefolgt
werden, tritt der Gipfel der F0-Kurve des R-Tons oft im Silben-Onset der folgenden
L-Ton tragenden Silben auf, anbei wird eine scharfe Umwandlung an der
Silbengrenze erzeugt werden. Um solche Umwandlung zu erzeugen, muss der
Kehlkopf (Larynx) zuerst die Tonhöhe mit steigender Geste aufhören und dann
mit der Tonhöhe der abfallenden Geste beginnen. Der Prozess kostet Zeit, es führt
dazu, dass die Spitze, nämlich die Umwandelungspunkt, in der Tat sehr häufig in
den folgenden L-Ton tragenden Silben auftreten, z.B. tritt die Spitze des R-Tons„Nan2“ von „RL_NanLiao“ (von den zwei Sprechern) im Konsonant-Onset des
folgenden Words „Liao3“ auf. Also, Ohne Rücksicht auf der Silbenstruktur tritt der
Gipfel der F0-Kontur von dem R-Ton häufig in der Nähe von dem Offset der
meisten Silben auf, das Onset der Steigerung von der F0-Kontur kommt immer in
der Mitte der meisten Silben vor; in der CVN (N/L/C)V Silbe taucht der Gipfel der
- 68 -
Uni-Stuttgart
F0-Kontur meistens vor der Nasal/Lateral –Vokal-Grenze auf.
Wenn R-Ton von H-Ton gefolgt wird, kommt oft keine Spitze der F0-Kurven in der
Nähe von der Silbengrenze, z.B., „RH_PingMa“, „RH_FanXing“ bei den zwei
Sprechern, usw. Wenn zwei R-Tönen miteinander liegen, ist die meisten F0Kurven bei den ersten Silben im Allgemeinen höher als bei den zweiten Silben, z.B.
„RR_FangNan“, „RR_HongMao“, usw.. Wenn der R-Ton von einem F-Ton gefolgt
wird, tritt der Gipfel oft in der folgenden F-Ton tragenden Silbe auf, [Xu, 1999] hat
nachgewiesen, dass dieser Gipfel wahrscheinlich mehr mit der folgenden F-Ton
tragenden Silben assoziiert wird.
Der Gipfel der F0-Kurve erscheint oft nach der Silbe, die Ton, Pitch Akzent („Pitch
accent“) oder fokussierte Prominenz („focal prominence“) trägt. Diese in den
vergangenen Untersuchungen von [Xu, 2001] schon untersuchten Phänomene,
werden als „Peak Delay“ bezeichnet. Abbildung 5.4 zeigt das Phänomen. Das
Phänomen „Peak Delay“ ist schon in vielen verschiedenen Sprachen berichtet
worden, die Ursache dazu ist heute immer noch nicht ganz klar. Für das
Chinesische hat [Xu, 2001] zudem nachgewiesen, dass das Phänomen „Peak
Delay“ unter der normalen Sprechgeschwindigkeit regelmäßig im „Rising“(R)- aber
nicht im „High“(H)-Ton vorkommen.
Abbildung 5.4: Die schematische Abbildung der Grundfrequenz„Peak Delay“.
Die Markierungen [high] und [low] sind jeweils die lexikalische Tonhöhe der Silbe.
Die Spitze der F0-Kurve in der soliden Linear ist über das End der H-Ton tragende
Silbe verzögert, aber in der gestrichelten Linear nicht.
- 69 -
Uni-Stuttgart
Also, auf der Grundlage der Ergebnisse der in Kapitel 4.2.3 erwähnten Messungen
und die gewonnenen Erkenntnisse der Untersuchung von den graphischen
Darstellung kann ein Modell nun vorlegen werden, das die Oberflächenvariation
der F0-Kontur von tonalen Kategorien in Abhängigkeit von Silbenstruktur und
Kontext in quantitativer Form beschreibt.
Von den graphischen Darstellungen der monosyllabischen Wörter kann festgestellt
werden, dass die F0-Werte im Wesentlichen den Werten der Tonhöhe „Pitch
velues“ nach „fünf Punkte Skalen“ entsprechen, nämlich „High“-55, „Rising“-35,
„Low“-214 , „Falling“-51. Wegen „creaky voice“ hat der L-Ton häufig den Wert der
Tonhöhe nach „fünf Punkte Skalen“ wie 21, oder 211, 213, 212 usw.
Für
disyllabische
Wörter
kann
ein
Modell
nun
vorliegen,
das
die
Silbenstruktur und Kontext jeweils beschreibt.
Das Muster des H-Tons im Abhängigkeit der Silbenstruktur und tonalen
Kontext:
Die Silbe mit H-Ton (H1), die von einer Silbe mit irgendwelchem Ton (H2, L2, R2,
F2) jeweils gefolgt wird, hat häufig eine hoch flache F0-Kontur und seine F0Kontur ist relativ höher als bei dem folgenden H-Ton (H2);
Das Muster des R-Tons im Abhängigkeit der Silbenstruktur und tonalen
Kontext:
Die Silbe mit dem R-Ton(R1), die von einer Silbe mit irgendwelchem Ton (H2, L2,
R2, F2) jeweils gefolgt wird, hat im allgemeinen die spezielle F0-Kontur, die in der
Mitte nach unten geht und gleich danach nach oben steigt. Außerdem ist das
Phänomen von „Peak Delay“ in der Diplomarbeit durch die graphischen
Darstellung auch nachgewiesen, der Gipfel der F0-Kurve erscheint also oft nach
der Silbe, die jeweils Ton, Pitch Akzent(„Pitch accent“) oder fokussierte Prominenz
(„focal prominence“) trägt. Im Mandarin Chinesischen hat [Xu, 2001] außerdem
gefunden,
dass
das
Phänomen
„Peak
Delay“
unter
der
normalen
Sprechgeschwindigkeit regelmäßig im R- aber nicht im H-Ton vorkommen. Dies ist
in den graphischen Darstellungen noch besser sichtbar, wenn das Konsonant- 70 -
Uni-Stuttgart
Onset der zweiten Silbe stimmhaft ist, z.B. “ RL_NanLiao“, „RH_PingMa“, weil die
F0-Konturen der Silben aneinanderreiht sind. Die detaillierte Beschreibung des
Musters wird wie folgend dargestellt:
RL: In der tonalen Sequenz RL tritt der Gipfel der F0-Kurve des R-Tons oft im
Silben-Onset der folgenden L-Ton tragenden Silben auf, anbei soll eine scharfe
Umwandlung an der Silbengrenze erzeugt werden;
RH: In der tonalen Sequenz RL kommt oft keine Spitze der F0-Kurven in der Nähe
von der Silbengrenze;
RR: In der tonalen Sequenz RR ist die ganze F0-Kurven bei den ersten Silben im
Allgemeinen höher als bei den zweiten Silben;
RF: In der tonalen Sequenz RR tritt der Gipfel der F0-Kontur oft in der folgenden
F-Ton tragenden Silbe auf, dazu hat [Xu, 1999] berichtet, dass diese Spitze
wahrscheinlich mehr mit der folgenden F-Ton tragenden Silben assoziiert wird.
Das Muster des L-Tons im Abhängigkeit der Silbenstruktur und tonalen
Kontext:
Im Vergleich zu dem R-Ton passiert das Phänomen „Peak Deleay“ im H-Ton fast
nicht, wenn ein L-Ton vor dem H-Ton steht. Es ist möglich, dass es die genügende
Zeit für die Transition von dem vorangehenden L-Ton zu dem H-Ton gibt, so kann
sich die steigende F0-Kontur im H-Ton vor dem Ende der Silbe abschwächen; die
Silbe mit dem L-Ton (L1), die von einer Silbe mit dem Ton (R2, F2) jeweils gefolgt
wird, hat oft fallende niedrige F0-Kontur; wenn sie von einer Silbe mit einem L-Ton
(L2) gefolgt wird, hat sie eine ähnliche F0-Kontur wie mit einem R-Ton (R1), anbei
ist diese F0-Kontur im wesentlichen höher als bei der folgenden Silben mit R-Ton
(R2). Das Phänomen wird als „tone sandhi“ genannt, vielen Wissenschaftler hat es
untersucht und nachgewiesen. In dieser Arbeit wird das Phänomen nicht
berücksichtigt.
Wenn eine Silbe mit irgendwelchem Ton (H1/ L1/R1/ F1) von einer Silbe mit LTon(L2) gefolgt wird, wird ihre F0-Kontur immer unter dem Einfluss des folgenden
L-Tons(L2) gestiegen. Das Phänomen wird von [Xu, Wang, 2001] als
- 71 -
Uni-Stuttgart
vorhersagbarer Effekt “anticipatory effect” genannt, diese Steigerung der F0Kontur wird als vorhersagbare Steigerung „anticipatory raising“ [Xu, Wang, 1997]
bezeichnet.
- 72 -
Uni-Stuttgart
6 Statistische Analyse
Um
die
Zuverlässigkeit
der
anscheinend
systematischen
Variationen
zu
bestimmen,, die im Kapitel 5 durch die visuelle Inspektion der graphischen
Darstellung herausgefunden worden sind, sollte nun die in den Dimensionen Zeit
und Frequenz gemessenen Ankerpunkte (wie auszugsweise in Tabelle 4.2.3.2.5
vorgestellt) statistisch als von der Silbenstruktur, der Vokalklasse der ersten Silbe
nach Zungeposition, Nasal-Offset, dem Ton der Silben, eventuell auch von dem
Sprecher abhängige Variable dargestellt werden. Außerdem sollte untersucht
werden, ob alle Faktore signifikant interagieren können, d.h., die Signifikanzen
werden sowohl in den Einzelfaktoren als auch den Interaktionen dargestellt, z.B.
die Interaktion zwischen den Silbenstrukturklassen und den Tontypen (vier Töne:
H, R, L, F). Also, es wird gezeigt, worin sich die jeweilige Signifikanz äußert. Zum
Schluss werden die Ergebnisse der gemachten Analysen präsentiert und
ausgewertet.
6.1
ANOVA
Zu der statistischen Analyse wird das Programm SPSS 13.0 zuerst für Windows
benutzt.
Als
Analyseverfahren
wird
die
Varianzanalyse
(uni−
bzw.
multivariat)/ANOVA verwendet. Eine Anova-Analyse ist ein Vergleich von
Mittelwerten aufgrund der so genannten Null-Hypothese. Diese nimmt an, dass die
Mittelwerte der abhängigen Variablen gleich sind (für eine Variable gesehen, d.h.
die Variablen werden nicht untereinander verglichen). Die Null-Hypothese wird
immer in Bezug auf unabhängige Variablen, so genannte „feste Faktoren“ gestellt,
die der eigentliche Gegenstand der Untersuchung sind.
Als Ergebnis liefert die Anova–Analyse die Signifikanz für jede abhängige Variable
im Bezug auf den Faktor bzw. die Faktoreninteraktionen. Der Wert liegt immer im
Intervall zwischen 0 und 1. Ob das Ergebnis signifikant ist, hängt davon ab, wie
der Untersucher am Anfang der Analyse im Programm das Signifikanzniveau
festgelegt hat. Im Allgemeinen gelten 5% als ein sehr gutes Signifikanzniveau,
dies ist deshalb auch gehalten worden. Als Beispiel zeigt die Abbildung 6.1 diesen
Arbeitsschnitt mit zwei Schritten in „One-way-ANOVA“-Anlyse.
- 73 -
Uni-Stuttgart
Abbildung 6.1: Prozess der Feststellung des Signifikanzniveaus in “Oneway-ANOVA“-Anlyse”
Wo mit Nummer „1“ markiert wird, zeigt der erste Arbeitsschritt. Das Menü „Post
Hoc“ sollte zuerst ausgewählt werden. Dann sollte das mit „2“ markierte
Signifikanzniveau von links Unten im Feld „Significance level“ mit 0,05 (5%)
automatisch von dem Programm gelegt werden, dies wird in dieser Arbeit
wahrgenommen.
- 74 -
6.2
Uni-Stuttgart
Datengrundlage für die statistische Analyse
Nachdem man einen Überblick über Varianzanalyse bekommen hat, müssen die
Daten für statistische Analyse weiter bearbeitet werden, bevor die Varianzanalyse
beginnt.
Um dieses Programm SPSS direkt benutzen zu können, sollten die Dateien
„Spssdaten_dai.xls“ und „Spssdaten_yang.xls“ außerdem zusammen unter
einer Datei „Spssdaten_yangunddai“ gespeichert werden, wobei muss jedes
Buchstaben der Kopfzeile in der Exel-Tabelle klein geschrieben werden, damit
keinerlei Probleme in SPSS beim Öffnen der Datei auftreten. Außerdem werden
die Informationen sowie Silbenstruktur und Tontyp des monosyllabischen Worts
und der ersten Silbe von dem disyllabischen Wort, Geschlecht, Vokal der ersten
Silbe nach Zungeposition sowie „high“-H und „low“-L, Nasal-Offset (mit oder ohne
Nasal-Offset), jeweils nach der Klasse kodiert. Als Beispiel wird das vollständige
Format des bearbeiteten Inputs für die statistische Analyse in Tabelle 6.2.1
dargestellt, die also neben der Information über die F0-Werte (in HZ), auch die
Kodierung der Silbenstrukturklasse, des Tontyps und des Sprechers enthält.
name
yun
hong
tiao
ke
n1
1
2
0
0
v1
2
2
2
3
wort
RR_YunNan
RR_HongMiao
RL_TiaoJie
LR_KeTiao
ton(s2)
2
2
3
2
s
15
15
11
11
geschlecht
1
2
2
2
ton(s1)
2
2
2
3
f0_1
106
211
236
197
...
...
...
...
...
f0_10
150
271
251
168
Tabelle 6.2.1: Ausschnitt aus dem Input für die statistische Analyse
In der Kopfzeile zeigen die Abkürzung „n1“ und „v1“ jeweils Nasal-Offset der
ersten Silbe und den Vokal der ersten Silbe (s1) nach der Zungeposition. Der
„wort“- Spalt wird in der statistischen Analyse nicht berücksichtigt, er bittet mir nur
die Informationen, ob die Silben einsilbig oder zweisilbig sind, und was für
Merkmale die zweite Silbe hat. Im „n1“-Spalt haben die Nummer jeweils die
Bedeutungen, also zeigt die Nummer „1“ die Koda der ersten Silben mit „n“,
„2“ zeigt die Koda mit „ng“ und „0“ ohne Koda; im Spalt „silbenstruktur
(s)“ entstehen die vorher erwähnten nummerierten Silbenstrukturklassen der
ersten Silbe (s1) und des einsilbigen Worts; die Spalte „ton (s1)“ und „ton
(s2)“ enthalten jeweils den Tontyp der ersten und zweiten Silbe, anbei zeigt die
Nummer„0“ ein monosyllabisches Wort, die Nummer von „1“ bis „4“ zeigen jeweils
die vier lexikalischen Töne; im Spalt „geschlecht“ zeigt die Nummer „1“ den
- 75 -
Uni-Stuttgart
Sprecher 1 und „2“ den Sprecher 2.
6.3
Varianzanalyse
Nach der Ermittlung der Inputdaten kann die Varianzanalyse nun beginnen. Bei
der Varianzanalyse werden eine oder mehrere unabhängige Variable, die auch
als Faktoren bezeichnet werden, in unserem Fall die sechs Faktoren wie „n1“, „v1“,
„ton(s1)“, „ton(s2)“, „s“ , „geschlecht“ (Sieh Tabelle 6.2.1) und eine oder mehrere
abhängige Variable, in unserem Fall die F0-Werte an den 10 verschiedenen
Ankerpunkten unterschieden. Mit Hilfe der Varianzanalyse sollte es untersucht
werden [Backhaus, 1996], ob es bezüglich der abhängigen Variablen signifikante
gibt, d.h. mehr als zufällige Unterschiede zwischen den durch die Ausprägungen
der unabhängigen Variablen bestimmten Gruppen; ob sich die GruppenMittelwerte signifikant unterscheiden; ob das Merkmal durch Kenntnis der
Gruppenzugehörigkeit besser vorhergesagt werden kann.
6.3.1 Ergebnisse der Varianzanalyse
Nun sind die Daten im „*.xls“-Format in SPSS geladen. In der oberen
Fensterlaufleiste ist der Punkt „Analyse“ zu finden, der unter anderem den Punkt
„Compare Means“→ „One-Way-ANOVA“ für einen Faktor und „General Linear
Modell“ für mehrere Faktoren enthält. Unter „General Linear Modell“ ist
„Multivariat“ auszuwählen, um die Interaktionen von mehreren unabhängigen
Variablen, im Fall die Interaktionen irgend zwei verschiedenen oben erwähnten
unabhängigen Variabelen-Faktoren, zu untersuchen. Dies wird auch als „TwoWay-ANOVA“ in der folgenden Analyse genannt. Die Kombinationsmöglichkeit von
zwei Faktoren wird in Tabelle 6.3.1.1 dargestellt. Als Beispiel wird das Ergebnis
von „Two-Way-ANOVA“ in der Abbildung 6.3.1.2 dargestellt.
- 76 -
Uni-Stuttgart
Faktoren
n1
v
ton(s2) s
geschlecht ton(s1)
n1
v
ton(s2)
silbenstruktur(s)
geschlecht
ton(s1)
Tabelle 6.3.1.1: „Two-way-Anova“, die Kombinationsmöglichkeit von zwei
Faktoren
In
den
Feldern,
die
mit
gelber
Farbe
markiert
werden,
steht
keine
Kombinationsmöglichkeit.
„Between-Subjects Factors“
toene (s1)
1
2
3
4
0
1
2
3
4
toene2
Value Label
H
R
L
F
monosyllabic
H
R
L
F
N
372
372
342
381
894
158
146
119
150
Tests of Between-Subjects Effects
Source
Dependent
Variable
Type III Sum of
Squares
df
Mean Square
F
Sig.
Corrected Modell
f0_1
1548577.31
18
86032.0726
28.2235994
1.162E-81
f0_2
1783425.67
18
99079.2037
33.6823423
1.2477E-96
f0_3
1910743.82
18
106152.434
37.0995072
1.127E-105
f0_4
1926916.19
18
107050.899
38.3741371
5.497E-109
f0_5
1830487.5
18
101693.75
36.1594098
3.279E-103
f0_6
1682649.21
18
93480.5119
34.0892784
1.0143E-97
f0_7
1572248.01
18
87347.1116
34.0855199
1.0381E-97
f0_8
1787078.67
18
99282.1485
18.459425
3.3723E-53
f0_9
2108038.63
18
117113.257
47.669062
3.529E-132
f0_10
2055971.72
18
114220.651
43.7272823
1.525E-122
f0_1
32194578.9
1
32194578.9
10561.7227
0
f0_2
31562177
1
31562177
10729.679
0
f0_3
31120061.1
1
31120061.1
10876.2361
0
f0_4
30450478.2
1
30450478.2
10915.4695
0
f0_5
29849886.3
1
29849886.3
10613.772
0
f0_6
28691197
1
28691197
10462.7391
0
f0_7
27843699.3
1
27843699.3
10865.4648
0
f0_8
27775750.3
1
27775750.3
5164.31591
0
Intercept
- 77 -
toenes1
toene2
Ton(s1) * ton(s2)
Uni-Stuttgart
f0_9
27589487.3
1
27589487.3
11229.8557
0
f0_10
27524267.1
1
27524267.1
10537.1611
0
f0_1
1003145.78
3
334381.928
109.697015
5.3002E-64
f0_2
1129680.03
3
376560.011
128.012971
1.5001E-73
f0_3
1168499.19
3
389499.731
136.127336
1.0866E-77
f0_4
1152307.12
3
384102.372
137.687747
1.7624E-78
f0_5
1068902.54
3
356300.847
126.690464
7.1782E-73
f0_6
914722.971
3
304907.657
111.189828
8.6153E-65
f0_7
865498.569
3
288499.523
112.581356
1.5905E-65
f0_8
979480.158
3
326493.386
60.7045704
5.7498E-37
f0_9
1111487.75
3
370495.915
150.804386
4.8119E-85
f0_10
1085626.33
3
361875.442
138.537379
6.5583E-79
f0_1
72821.7534
4
18205.4383
5.97245867
9.1256E-05
f0_2
53219.9557
4
13304.9889
4.52308027
0.0012382
f0_3
36031.4396
4
9007.85989
3.14818182
0.01371542
f0_4
24608.0333
4
6152.00834
2.20528752
0.06628527
f0_5
21543.5231
4
5385.88078
1.91506627
0.10546831
f0_6
22567.3061
4
5641.82653
2.05738919
0.08411653
f0_7
24780.9352
4
6195.2338
2.41757009
0.04685581
f0_8
23023.5872
4
5755.89679
1.07018781
0.36976537
f0_9
26526.6048
4
6631.6512
2.69930664
0.02934104
f0_10
15945.1709
4
3986.29272
1.52607909
0.19211519
f0_1
59835.7808
11
5439.61643
1.78451536
0.05177922
f0_2
45467.7683
11
4133.43348
1.40517602
0.16395062
f0_3
31215.2827
11
2837.75297
0.99177412
0.45147972
f0_4
23197.0508
11
2108.8228
0.75594185
0.68462903
f0_5
21349.9643
11
1940.90585
0.69013101
0.74904802
f0_6
20172.7872
11
1833.88974
0.66875947
0.76918273
f0_7
13730.7343
11
1248.24857
0.48710485
0.91221756
f0_8
16967.2743
11
1542.47948
0.28679158
0.98842146
f0_9
27088.6496
11
2462.60451
1.00236344
0.44172982
f0_10
38735.0764
11
3521.37058
1.34809217
0.1918672
Abbildung 6.3.1.2: das Ergebnis von „Two-Way-ANOVA“-Analyse
Anbei zeigt der Feld, der mit der roten Farbe markiert wird, den Interaktionseffet
zwischen den Faktoren „ton(s1)“ und „ton (s2)“.
Außerdem werden die zusammengefassten Ergebnisse der Varianzanalyse in
Tabelle 6.3.1.3-6.3.1.5 gestellt, wobei zeigt Tabelle 6.3.1.3 das Ergebnis der „OneWay-ANOVA“-Anayse, mit Hilfe des Signifikanzkodes wird Tabelle 6.3.1.3 in
Tabelle 6.3.1.4 umgewandelt, das Ergebnis der „Two-Way-ANOVA“-Analyse wird
Tabelle 6.2.1.5 gezeigt.
- 78 -
Uni-Stuttgart
ankerpunkt n1
v
ton(s2) s
geschlecht ton(s1)
f0_1
0.000
0.079
0.000
0.000
0.000
0.000
f0_2
0.000
0.202
0.000
0.000
0.000
0.000
f0_3
0.000
0.235
0.000
0.000
0.000
0.000
f0_4
0.000
0.093
0.000
0.005
0.000
0.000
f0_5
0.000
0.013
0.000
0.053
0.000
0.000
f0_6
0.000
0.004
0.000
0.104
0.000
0.000
f0_7
0.000
0.019
0.000
0.208
0.000
0.000
f0_8
0.001
0.675
0.005
0.012
0.000
0.000
f0_9
0.000
0.483
0.000
0.034
0.000
0.000
f0_10
0.000
0.687
0.002
0.312
0.000
0.000
Tabelle 6.3.1.3: Das Ergebnis der „One-Way-ANOVA“-Analyse
Das Ergebnis von „One-Way-ANOVA“ zeigt jeweils den Effekt von Silbenstruktur
(s), Geschlecht, zwei Töne (ton (s1), ton (s2)), Vokal (v), und Nasal (n1) in jedem
Ankerpunkt mit originalen Signifikanzwerten.
Je kleiner der Wert ist, desto signifikanter ist die Abhängigkeit, so sich die
Signifikanzkodes wie folgend ergeben:
p = 0: ’ *** ’, 0.001< p < 0.01:’ ** ’, 0.01< p < 0.05: ’ * ’, p > 0.05: ’ ’
Die Daten aus Tabelle 6.3.1.3 können dann mit diesem Kode noch umgewandelt
werden:
ankerpunkt
n1
v
ton(s2)
s
geschlecht
ton (s1)
f0_1
***
***
***
***
***
f0_2
***
***
***
***
***
f0_3
***
***
***
***
***
f0_4
***
***
**
***
***
f0_5
***
*
***
***
***
f0_6
***
**
***
***
***
f0_7
***
*
***
***
***
f0_8
**
**
*
***
***
f0_9
***
***
*
***
***
f0_10
***
**
***
***
Tabelle 6.3.1.4: Das mit dem Kode umgewandelte Ergebnis von
„One-Way-ANOVA“
Von der Anzahl der Sternchen kann man den Signifikanzeffekt direkt lesen.
Tabelle 6.3.1.4 zeigt also, dass eine stark signifikante Abhängigkeit (***) zwischen
- 79 -
Uni-Stuttgart
den Werten an den Ankerpunkten und den zwei Sprechern und außerdem „ton
(s1)“ besteht; im Vergleich dazu sind sie nur am Ankerpunkt 80%, 100% weniger
signifikant abhängig von dem Ton(s2) und am Ankerpunkt 80% weniger signifikant
abhängig von dem Nasal-Offset (n1); wie Tabelle 6.3.1.4 zeigt, gibt es z.B. keine
signifikante Abhängigkeit zwischen den Wert an den Ankerpunkten 10%-40%,
80%-100% und dem Vokal (v), wohingegen die Werte an den Ankerpunkten 50%70% jeweils nach dem unterschiedlichen Niveau signifikant; die Werte an den
Ankerpunkten 50%, 60% , 70% und 100% sind jeweils weniger oder mehr
signifikant abhängig von den verschiedenen Silbenstrukturen.
Die „Two-Way-ANOVA“-Analyse, in der untersucht werden sollte, ob jede zwei
Faktoren, die vorher schon erwähnt worden sind, miteinander interagieren können,
ob bestimmte Töne beispielsweise in bestimmten Silbenstrukturklassen oder
tonalen Kontexten besonders häufig auftreten. Tabelle 6.3.1.5 zeigt die
zusammengesetzten Ergebnisse der „Two-Way-ANOVA“-Analyse mit originalen
Signifikanzwerten. Außerdem wird Tabelle 6.3.1.5 mit dem Kode in Tabelle 6.3.1.6
weiter umgewandelt.
ankerpunkt
f0_1
f0_2
f0_3
f0_4
f0_5
f0_6
f0_7
f0_8
f0_9
f0_10
ton(s1)*geschlecht
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
ton(s1)*s ton(s1)*ton(s2)
0.000
0.000
0.022
0.572
0.380
0.002
0.000
0.000
0.924
0.924
0.052
0.164
0.451
0.685
0.749
0.769
0.912
0.988
0.442
0.192
n1*geschlecht
0.694
0.618
0.549
0.214
0.038
0.004
0.001
0.044
0.003
0.002
V*s
0.822
0.687
0.438
0.315
0.339
0.611
0.741
0.942
0.690
0.768
ankerpunkt
ton(s1)*n1
ton(s1)*v
geschlecht *
ton(s2)
ton(s2)*n1
ton(s2)*s
n1*v
n1*s
v*geschlecht
f0_1
0.004
0.973
0.018
0.187
0.984
0.844
0.694
0.338
f0_2
0.018
0.971
0.086
0.133
0.993
0.772
0.618
0.355
f0_3
0.077
0.969
0.142
0.138
0.999
0.844
0.549
0.307
f0_4
0.313
0.826
0.231
0.177
1.000
0.772
0.214
0.269
f0_5
0.610
0.193
0.224
0.198
1.000
0.690
0.038
0.128
f0_6
0.048
0.063
0.127
0.190
1.000
0.912
0.004
0.026
f0_7
0.004
0.199
0.111
0.174
0.999
0.749
0.001
0.014
f0_8
0.993
0.677
0.218
0.590
1.000
0.750
0.044
0.191
- 80 -
Uni-Stuttgart
f0_9
0.998
0.978
0.028
0.100
0.998
0.971
0.003
0.230
f0_10
0.986
0.903
0.008
0.044
0.998
0.641
0.002
0.197
Tabelle 6.3.1.5: Das Ergebnis der „Two-Way-ANOVA“-Analyse
ankerpunkte
f0_1
f0_2
f0_3
f0_4
f0_5
f0_6
f0_7
f0_8
f0_9
f0_10
ton(s1)*geschlecht
***
***
***
***
***
***
***
***
***
***
ankerpunkt
ton(s1)*
n1
f0_1
**
f0_2
*
ton(s1)*v
ton(s1)*s ton(s1)*ton(s2)
n1*geschlecht
v*s
***
***
*
*
**
**
*
**
**
**
***
***
geschlecht *
ton(s2)
ton(s2)*
n1
ton(s2)*
s
n1*
v
n1*s
v*geschlecht
*
f0_3
f0_4
f0_5
*
f0_6
*
**
*
f0_7
**
**
*
f0_8
*
f0_9
*
f0_10
***
**
*
**
Tabelle 6.3.1.6: Das mit dem Kode umgewandelte Ergebnis von „two-wayANOVA“.
Tabelle 6.3.1.1 zeigt, dass die Interaktionseffekt zwischen dem ersten Ton und
Sprecher sehr signifikant ist, aber zwischen dem zweiten Ton und Sprecher nur
am Ankerpunkt 100% sehr signifikant (mit dem Signifikantkode ***) und am
Ankerpunkt
90%
weniger
signifikant
(mit
dem
Signifikantkode
„*“);
die
Interaktionseffekte zwischen dem ersten Ton und Silbenstruktur der ersten Silben
am Ankerpunkt 40% , 50% , 90% und 100% sind nicht signifikant; zwischen dem
ersten und zweiten Ton besteht keine signifikante Interaktionseffekt; die
Interaktionseffekt zwischen dem Nasal-Offset der ersten Silben und der
Silbenstruktur am Ankerpunkt 10%-40% ist jeweils nicht signifikant, aber am
Ankerpunkt 50% - 100% ist jeweils mit dem verschiedenen Signifikantsniveau
- 81 -
Uni-Stuttgart
dargestellt usw.
Der Korpus besteht sowohl aus den monosyllabischen als auch disyllabischen
Silben, die gleichen Silben, die gleichzeitig als die erste Silbe des disyllabischen
Worts und ein monosyllabisches Wort im Korpus entstehen, werden miteinander
verglichen und analysiert. Aus diesen statistischen Ergebnissen kann man
feststellen, dass der tonale Koartikulationseffekt sehr signifikant ist. Also, der
lexikalische Ton kann nicht nur die F0-Form einer Silbe determinieren, sondern
auch die Form und Höhe der F0-Kontur der benachbarten Silben beeinflussen.
Anbei kann man aus dem Signifikanteffekt der Silbenstruktur in Tabelle 6.3.1.6
bemerken, dass der Silbenstruktur die Form der F0-Kontur einige Maße
beeinflussen kann, insbesondere in der Silbe mit dem Nasal-Offset ist dieser Effekt
noch klarer, dagegen mit dem Nukleus (Kernvokal) nicht, weil es noch viele andere
Faktoren für Intensität des Vokals (im Englischen „Intensity of the vowel“) gibt, z.B.
Stärke der Aussprache, intrinsische Intensität des Vokals (im Englischen „intrinsic
Intensity of the vowel“) [Lin, Maocan, 1987], deshalb ist es schwer, eine speziell
festgelegte Kontur der Intensität des Vokals unter den vier Tönen zu bilden.
Die Interaktion zwischen dem Tontyp und der Silbenstrukturklasse ist teilweise
sehr stark signifikant (mit der Kode *** gezeichnet).
Außerdem ist es vorher nicht gedacht, dass im Ergebnis der ANOVA-Analysen ein
Signifikanteffekt für den Sprecher gezeigt wird. Dazu kann man möglicherweise
wie folgend erklären:
-
Das Korpus mit den 1496 Sätzen ist relativ groß, aber es gibt nur zwei
Sprecher, vielleicht wegen der Menge des Sprechers kommt dieses Ergebnis
vor. Die Testtextmaterialen wurden nur von zwei Sprechern, nämlich der
Sprecher Yang und die Sprecherin Dai, aufgenommen. Die zwei Sprecher
sprechen perfekt Mandarin, Frau Dai studiert gerade Computerlinguistik an der
Universität Stuttgart. Ihre Aussprache ist ausgebildet und professionell, der
Sprecher Yang hat die Testtexte auch sehr gut gesprochen. Als Lösung kann
man eine durchschnittliche F0-Werte zwischen den zwei Sprechern jeweils
unter den gleichen Faktoren sowie dem gleichen Tontyp, der gleichen
Silbenstruktur und dem gleichen tonalen Kontext usw., mit einander
- 82 -
Uni-Stuttgart
vergleichen und herausfinden, ob der F0-Kontur sich zwischen den zwei
Sprechern gleichmäßig mehr oder wenig unterscheiden. Aus der großen
Menge des Korpus dieser Arbeit wird diese Analyse nicht berücksichtigt.
- 83 -
Uni-Stuttgart
7 Ausblick
Im Rahmen dieser Diplomarbeit sollte ein Modell vorgelegen, das die
Silbenstruktur und Kontext beschreibt.
Hierzu wurden neu Silbenstrukturklassen ermittelt, die im Verlauf der Arbeit
unterschieden wurden, die Silbenstrukturklassen von 1 bis 4 bestehen aus dem
monosyllabischen Wort und von 11 bis 15 aus dem disyllabischen Wort. Es
wurden 206 Stimuli konstruiert, die diese Silbenstrukturklassen möglichst optimal
abdecken sollten.
Weiterhin wurden die Tonrealisierungen in allen tonalen Kontexten (mit Ausnahme
des neutralen Tons) untersucht. Die Charakteristische Punkte (Ankerpunkte)
entlang der F0-Kontur der Töne wurden in den Dimensionen Zeit und Frequenz
gemessen
und
graphisch
dargestellt,
um
eine
Regelmäßigkeit
der
Silbenstruktur und Kontext zu finden. Durch visuelle Inspektion der graphisch
dargestellten F0-Konturen wurden einige interessanten Phänomen der Alignierung
zwischen F0-Kontur und Silben gefunden, z.B.:
-
Das „Peak delay“-Phänomen: ohne Rücksicht auf der Silbenstruktur tritt der
Gipfel der F0-Kontur von dem R-Ton häufig in der Nähe von dem Offset der
meisten Silben auf, das Onset der Steigerung von der F0-Kontur fängt immer in
der Mitte der meisten Silben an; in der CVN (N/L/C)V Silbe taucht der Gipfel
der F0-Kontur meistens vor der NV-Grenze/ LV-Grenze (Nasal/Lateral –VokalGrenze) der zweiten Silbe auf [xu, 1998];
-
Der vorhersagbarer Effekt “anticipatory effect”: Wenn eine Silbe mit
irgendwelchem Ton (H1/ L1/R1/ F1) von einer Silbe mit L-Ton(L2) gefolgt wird,
wird ihre F0-Kontur immer unter dem Einfluss des folgenden L-Tons(L2)
gestiegen. Z.B. gibt es ein bekanntes Phänomen "Tone Sandhi", der L-Ton in
Mandarin Chinesischen verwandelt sich im R-Ton also, wenn der L-Ton von
dem anderen L-Ton gefolgt wird;
- 84 -
-
Uni-Stuttgart
das Phänomen der Glottalisierung („creaky voice“) im L-Ton: der L-Ton
sollte im Vergleich zu den anderen drei Tönen den längsten zeitlichen Dauer
haben, das wird von [Xu, 1997] schon nachgewiesen. Anbei passiert das
Phänomen der Glottalisierung („creaky voice“) im L-Ton tatsächlich sehr häufig.
Von den graphischen Darstellungen der monosyllabischen Wörter kann man
außerdem bemerken, dass die F0-Werte im Allgemeinen den Werten der
Tonhöhe „Pitch velues“ nach „fünf Punkte Skala“ von [Chao, 1930] entsprechen,
nämlich „High“-55, „Rising“-35, „Falling“-51. Wegen „creaky voice“ hat des LTons häufig den Wert der Tonhöhe mit Hilfe von „fünf Punkte Skalen“ wie 21,
oder 211, 213, 212 usw. Die Auftauche des Phänomens ist normal, im
Mandarin Chinesischen ist es nicht vermeidbar, wichtig ist, wie man es
bearbeiten kann. Durch den Algorithmus „Trimming Alorithmu“ im PRAAT
Skript von [Xu, 1999] wird das Problem zwar im Wesentlichen gelöst, aber es
ist keine absolute Lösung. Vielleicht kann man in der Zukunft doch eine ideale
Lösung finden.
Die Muster, die im Kapitel 5 jeweils in der detaillierten Form beschrieben wurden,
werden durch die statistische Analyse bestimmt. Also, die statistische Auswertung
der Sprachdaten hat ergeben, dass ein sehr signifikanter Zusammenhang
zwischen den in dieser Arbeit ermittelten Silbenstrukturklassen (besonders mit
Nasal-Offset) und der Position charakteristischer Punkte entlang der F0−Kontur
besteht.
Darüber hinaus haben die Auswertungen ergeben, dass die Unterscheidung der
vier Tontypen im Mandarin Chinesischen sinnvoll erscheint: H, R, L, F.
Diese Ergebnisse bestätigen also die Vermutung, dass die segmentale
Zusammensetzung der Silbe teilweise einen starken Einfluss auf den F0-Verlauf
von Tönen im Mandarin Chinesischen hat und die F0-Kontur der Töne oft vom
tonalen Kontext abhängen.
Die Ergebnisse dieser Diplomarbeit könnten im Bereich der Sprachsynthese
sinnvolle Implikation haben.
Man könnte sich vorstellen in weiteren Experimenten auch die Silbenstruktur, also
tri- bzw. polysyllabisch, oder die Informationsstruktur der Äußerung (z.B. Fokus)
- 85 -
Uni-Stuttgart
unter verschiedenen Geschwindigkeit (fast oder langsam) zu variieren und deren
Einflüsse auf den F0-Verlauf von Silbe im Mandarin Chinesischen ebenfalls zu
untersuchen.
Mit Hilfe dieser Ergebnisse kann man das Modell weiter entwickeln, das die
Silbenstruktur und Kontext in quantitativer Form prädiziert, da man durch die
visuelle Inspektion der graphischen Darstellung und die Auswertung der
statistischen Analyse herausfinden kann, welche Faktoren die Form der F0-Kontur
beeinflussen und was für Eigenschaft die F0-Konturen unter verschiedenen
Restriktionen (Sowie bestimmt Geschwindigkeit, tonalen Kontext usw.) haben.
Weiterhin haben [Xu, Luo, 1999 ] zusammen ein quantitatives Modell für Bildung
der F0-Kontur im Mandarin Chinesischen vorgelegen. In ihrer Arbeit nehmen sie
an:
-
es gibt zwei „Pitch Targets“ im Mandarin Chinesischen, nämlich ein Statisches
und ein Dynamisches, also H- und L-Ton, F- und R-Ton;
-
jedes „Pitch Target“ wird zu einer Silbe zugeordnet und mit einer Silbe
gleichzeitig implementiert;
-
Im ganzen Dauer einer Silbe wird „Pitch Target“ „continuously“ und
„asymptotically“ implementiert [Xu, Wang, 2001];
Ihr Modell zeigt die F0-Kurve in jeder Silbe als ein exponentielle Asymptote, die in
den unterliegend „Pitch Target“ entspricht. Das Modell ist auch geprüft worden,
das Ergebnis ist anspornend.
Wegen vielen Beschränkungen der objektiven Bedingungen habe ich in diese
Arbeit nur einen Grundstein für die Analyse im Mandarin Chinesischen gelegt. Mit
den analysierten Daten kann diese Diplomarbeit möglicherweise weiter untersucht
werden. Wenn jemand sich dafür interessiert, helfe ich ihm jeder Zeit gerne bei der
weiteren Analyse.
- 86 -
Uni-Stuttgart
Literaturverzeichnis
[shen, 2005; Chao, 1930]
Chao, Y.R., 1930. „A system of tone letters''. Le Maõtre Phon_etique 45, 24±27.
[Pike, 1948]
Pike, K. L., 1948. „Tone languages”. Ann Arbor: University of Michigan Press.
[Luo, Wang, 1957]
Luo, Changpei und Wang, Jun, 1957. „Putong Yuyin Xue Gang Yao“.
[Lieberman, 1967]
Lieberman, P., 1967. „ Intonation, perception and language”. Cambridge, MA: MIT
Press.
[Lin, 1965]
Lin, Maocan, 1965. „Yin1 gao1 xian3 shi4 qi yi3 pu3 tong1 hua4 sheng1 xue2 te4
zheng1”. “sheng1 xue2 bao4”, 2-1.K.
[hyman, 1973]
Hyman, L. M., 1973. „The role of consonant types in natural tonal assimilations”. In
Consonant ¹ypes and ¹one (L. M. Hyman, editor), pp. 151-179. Los Angeles, CA:
Department of Linguistics, University of Southern California.
[Hyman, 1974]
Hyman, L. & R. Schuh, 1974. „Universals of tone rules”. ¸inguistic Inquiry, 5, 81115.
[Xu, Shirong, 1980]
Xu, Shirong, 1980. „Pu1tong1hua4 yu3yin1 zhi1shi2“.
[Xu, 1986]
Xu,Y., 1986. „Pu3tong1hua4 sheng1lian2de sheng1xue2 yu3yin1xue2 te4zheng1“.
- 87 -
Uni-Stuttgart
[Lin, Maocan, 1987]
Lin, Maocan, 1987. „Shi2yan4 yu3yin1xue2 gai4yao4“, Intonation.
[Backhaus, 96]
Klaus Backhaus, Bernd Erichson, 1996. „Uni− und Multivariate Analysemethoden”.
Teubner, Stuttgart.
[Prieto, 1996]
Prieto, P., Shih, C. & Nibert, H., 1996. „Pitch downtrend in Spanish”. Journal of
Phonetics, 24, 445-473.
[Xu, 1997]
Xu, Y. 1997. „contextual tonal variations in Mandarin”. Journal of Phonetics, 25:
61-83.
[Xu, Wang, 1997]
Xu, Y., Wang, Q.E. 1997. „What can tone studies tell us about intonation?” In:
Botinis, A., Kouroupetroglou, G., Carayannis, G. (Eds.), Proceedings of an ESCA
Workshop on Intonation: Theory, Modells and Applications, Athens, pp. 337±340.
[Xu, 1998]
Xu, Y., 1998. „Consistency of tone-syllable Alignement across different syllable
structures and speeking rates”.
[Xu, 1999]
Xu, Y., 1999. „Effescts of tone and focus on the formation and alignment of
contours”.
Journal
of
Phonetics
27,
55-105.
A
vailable
onkine
at
http://www.idealibrary.com.on.
[Xu, Luo, 1999]
Ching X. Xu*, Yi Xu*, and Li-Shi Luo, 1999. „A pitch target approximation Modell
for F0 contours in mandarin”. In: Northwestern University, Evanston, IL, USA,
NASA Langley Research Center, Hampton, VA, USA, Proceedings of the 14th
International Congress of Phonetic Sciences. pp. 2359-2362.
- 88 -
Uni-Stuttgart
[Xu, Wang, 2001]
Xu, Y., and Wang, 2001. „Pitch targets and their realization: Evidence from
Mandarin Chinese”. Q. E. in press. Speech Communication.
[Shen, 2004]
Shen, Jong, 2004. http://www.pkucn.com/forumdisplay.php
[Shen, 2005]
Shen, Jong, 2005. „Cong2 Shen1 Diao4 dao4 Yu3 Yin1“ (vom Ton bis zur
Intonation). http://www.pkucn.com/
- 89 -
Anhang
1. Graphische Darstellungen
-I-
Uni-Stuttgart
- II -
Uni-Stuttgart
- III -
Uni-Stuttgart
- IV -
Uni-Stuttgart
-V-
Uni-Stuttgart
- VI -
Uni-Stuttgart
- VII -
Uni-Stuttgart
- VIII -
Uni-Stuttgart
- IX -
Uni-Stuttgart
-X-
Uni-Stuttgart
Uni-Stuttgart
2. Das PRAAT-Skript von Xu
# SYNOPSIS:
# 1) Automatically open each .wav file in a folder, manually label intervals and
rectify vocal pulse markings;
# 2) Save automatically trimmed (smoothed) f0 contours;
# 3) Save time-normalized f0;
# 4) Save sampled f0;
# 5) Save mean f0, intensity, duration and peak velocity of labeled intervals;
# 6) Save results into ensemble files.
# INSTRUCTIONS:
# 1. put it in the same folder as the “.wav” files to be analyzed, and launch PRAAT;
# 2. Select Open PRAAT Script from the "PRAAT" menu (or the equivalent on pc);
# 3. Locate this script in the dialogue window and select it;
# 4. When the script window opens in PRAAT, select run from the Run menu (or
use the key shortcut command-r or control-r);
# 5. When dialogue window opens, click OK and three windows will appear. The
top big window display the waveform together with vocal pulse markings generated
by PRAAT. Here you can do manual checking by inserting missing marks and
deleting apparent double marks.
# 6. The second big window displays the waveform and the spectrogram together
with optional pitch tracks, formant tracks, vocal pulse markings, etc. But these are
all for your reference. If Labeling is checked in the beginning dialogue window, two
label fields will be shown at the bottom of the window, and you can put whatever
labels you want to mark various boundaries, sound names, etc.
# 7. Check or uncheck the boxes in the dialogue window according to your
analysis needs. Set appropriate values in the text fields or simply use the default
values.
- XI -
Uni-Stuttgart
# 8. When you are done with manual correction and labeling, go to the upper-left
hand corner to activate the third, small window. Click "Continue" and several things
will happen: the vocal pulses and the labels will be saved into .pulse and .label text
files, respectively;
a .f0 file will be saved which contains trimmed f0 and actual time; the trimmed f0 is
also saved into a PitchTier file which can be opened by PRAAT; and two new
windows will appear displaying the waveform and vocal pulses of the next file. You
can repeat this procedure until all the files in the folder are processed. Or you can
stop at any point by clicking the "Stop" button in the upper-left hand corner.
Remember to note down the number of the current file before stopping if there are
many files in the folder and you want to resume what you have been doing later on.
# 9. For each .wav file, various analysis results are saved into individual files as
described below. If, however, you want to change certain analysis parameters after
processing all sound files without having to do them one by one again, you can set
the "Input File No" to 1 and uncheck the "Pause between sound files" button before
pressing "OK".
# 10. After the analysis of all the individual files are done, you can put most of the
analysis results together into several ensemble files: maxvelocity.txt,
meanintensity.txt, duration.txt, meanf0.txt, normf0.txt and samplef0.txt.
# 11. The .f0 files contain trimmed f0 with real time.
# 12. The .timenormf0 files contain time-normalized f0. The f0 in each interval is
divided into the same number of points (default = 10). Thus points 1-10 belong to
interval 1, and points 11-20 belong to interval 2, etc.
# 13. The .actutimenormf0 files also contain time-normalized f0 with each interval
divided into the same number of points (default = 10). But the time scale is the
original, except that the onset time of interval 1 is set to 0.
# 14. The .samplef0 files contain f0 values at fixed time intervals specified by "f0
sample rate".
- XII -
Uni-Stuttgart
# 15. Time-normalized f0 and sample f0 are generated only for labeled intervals.
# 16. The .f0, .timenormf0, and .actutimenormf0 files can be opened by any
graphing program (e.g., Excel). The left-hand column is time and the right-hand
column f0.
# 17. The .means file contains values of mean f0, mean intensity, duration and
peak velocity (if applicable) of all labeled intervals.
# 18. Description of the C code for the trimming algorithm used to smooth raw f0
curves: The trimming algorithm compared three f0 points at a time. If the middle
point is greater than (or smaller than) both flanking points by the amount specified
by MAXBUMP and MAXEDGE, it is replaced by a point that makes the line
between the flanking points a straight one. This trimming algorithm effectively
eliminates sharp spikes in the raw f0 tracing often seen around nasal-vowel
junctions. In contrast, the triangular smoothing algorithm commonly used would
always retain some effects of the spike, since its value is included in the running
means. This is particularly critical for the f0 peak measurements taken in the
present study. Even when a small effect of the spike is left in the curve, the
smoothed bump at that location could still be taken as an f0 peak by an automatic
peak searching algorithm.
form Start
integer Input_File_No 1
integer Maxf0 400
integer Minf0 30
integer Npoints 10
integer F0_sample_rate 100
integer Perturbation_in_ms 30
boolean Label_intervals 1
boolean Get_f0_via_pulse_marking 1
boolean Get_time_normalized_f0 0
boolean Get_sample_f0 0
boolean Get_interval_means 1
boolean Save_output_files 1
- XIII -
Uni-Stuttgart
boolean Pause_between_sound_files 1
boolean Get_assembled_results 0
endform
directory$ = "./"
Create Strings as file list... list 'directory$'*.wav
numberOfFiles = Get number of strings
if !numberOfFiles
Create Strings as file list... list 'directory$'*.WAV
numberOfFiles = Get number of strings
endif
hasmeanstitle = 0
hasnormf0 = 0
hassamplef0 = 0
number = input_File_No
for ifile from input_File_No to numberOfFiles
select Strings list
fileName$ = Get string... ifile
name$ = fileName$ - ".wav" - ".WAV"
if get_assembled_results
if get_interval_means and
fileReadable(directory$+name$+".timenormf0")
call All_means 'name$'
endif
if get_time_normalized_f0 and
fileReadable(directory$+name$+".timenormf0")
call All_normf0 'name$'
endif
if get_sample_f0 and fileReadable(directory$+name$+".samplef0")
call All_samplef0 'name$'
endif
else
call Labeling 'fileName$'
endif
number = number + 1
endfor
- XIV -
Uni-Stuttgart
procedure Labeling file_name$ file_extension$
Read from file... 'directory$''file_name$'
name$ = file_name$ - ".wav" - ".WAV"
if label_intervals
labelfile$ = name$+".label"
if fileReadable (labelfile$)
Read from file... 'directory$''name$'.label
else
To TextGrid... "interval point" point
endif
plus Sound 'name$' # adds one object from the current selection
endif
Edit
if get_f0_via_pulse_marking
pulsefile$ = name$+".pulse"
if fileReadable (pulsefile$)
Read from file... 'directory$''name$'.pulse
else
select Sound 'name$'
To PointProcess (periodic, cc)... minf0 maxf0
endif
plus Sound 'name$'
Edit
endif
call Save 'directory$' 'name$'
Remove
endproc
procedure Save directory$ name$
if pause_between_sound_files
pause Current file is 'number'.
endif
- XV -
Uni-Stuttgart
# sechs durch das Skript erzeugten Daten:*.f0, *.PitchTier, *.pulse, *.samplef0,
*.f0velocity, *.timenormf0, *.actutimenormf0
if get_f0_via_pulse_marking
select PointProcess 'name$'
if save_output_files
Write to short text file... 'directory$''name$'.pulse
maxperiod = 1/minf0 # the time difference between two
#consecutive samples in a sound.
To PitchTier... maxperiod
call Trimf0
Write to short text file... 'directory$''name$'.PitchTier
Down to TableOfReal... Hertz
Write to headerless spreadsheet file... 'directory$''name$'.f0
Remove
if get_sample_f0
call Sampling
call Differentiation
if found_interval
select PitchTier samplef0
Write to headerless spreadsheet file...
'directory$''name$'.samplef0
Remove
select PitchTier velocity
'directory$''name$'.f0velocity
Remove
endif
plus Pitch samplef0
Remove
endif
- XVI -
Uni-Stuttgart
if get_time_normalized_f0
call Normalization
if found_interval
select PitchTier normf0
'directory$''name$'.timenormf0
Remove
select PitchTier normactuf0
'directory$''name$'.actutimenormf0
Remove
endif
plus PitchTier normactuf0
plus PitchTier normactutimef0
endif
plus PointProcess 'name$'
Remove
if get_interval_means
call Means
endif
if get_interval_means
select TableOfReal means
'directory$''name$'.means
plus Intensity 'name$'
Remove
endif
select PitchTier 'name$'
if get_sample_f0
plus PitchTier velocity
endif
- XVII -
Remove
endif
endif
if label_intervals and save_output_files
select TextGrid 'name$'
Write to short text file... 'directory$''name$'.label
Remove
endif
endproc
procedure Trimf0
maxbump = 0.01
maxedge = 0.0
maxgap = 0.033
n = Get number of points
first = Get value at index... 1
second = Get value at index... 2
penult = Get value at index... n-1
last = Get value at index... n
tfirst = Get time from index... 1
tlast = Get time from index... n
for k from 1 to 3
call Trim
endfor #3 mal Glaeterung
Remove point... 1
Add point... tfirst second + (first-second) / 1000
Remove point... n
Add point... tlast penult + (last-penult) / 1000
endproc
procedure Trim
for i from 2 to n-1
tleft = Get time from index... i-1
tmid = Get time from index... i
- XVIII -
Uni-Stuttgart
Uni-Stuttgart
tright = Get time from index... i+1
gap1 = tmid - tleft
gap2 = tright - tmid
left = Get value at index... i-1
mid = Get value at index... i
right = Get value at index... i+1
diff1 = mid - left
diff2 = mid - right
if diff1 > maxbump and diff2 > maxedge and gap1 < maxgap and
gap2 < maxgap
... or diff2 > maxbump and diff1 > maxedge and gap1 < maxgap and
gap2 < maxgap
Remove point... i
Add point... tmid left+(tmid-tleft)/(tright-tleft)*(right-left)
endif
if diff1 > maxbump and gap2 >= maxgap
Remove point... i
Add point... tmid left + maxbump
endif
Remove point... i
Add point... tmid right + maxbump
endif
diff1 = left - mid
diff2 = right - mid
if diff1 > maxbump and diff2 > maxedge and gap1 < maxgap and
gap2 < maxgap
... or diff2 > maxbump and diff1 > maxedge and gap1 < maxgap and
gap2 < maxgap
Remove point... i
Add point... tmid left+(tmid-tleft)/(tright-tleft)*(right-left)
endif
Remove point... i
Add point... tmid left - maxbump
- XIX -
endif
Remove point... i
Add point... tmid right - maxbump
endif
endfor
endproc
procedure Normalization
lasttime = Get finishing time
Create PitchTier... normactutimef0 0 lasttime
Create PitchTier... normf0 0 20
Create PitchTier... normactuf0 0 20
nintervals = Get number of intervals... 1
interval = 0
found_interval = 0
for m from 1 to nintervals
label$ = Get label of interval... 1 m
if not label$ = ""
start = Get starting point... 1 m
end = Get end point... 1 m
index1 = Get high index from time... start
index2 = Get low index from time... end
if found_interval = 0
found_interval = 1
firstf0 = Get value at time... start
firstime = start
endif
call Normalize
interval = interval + 1
- XX -
Uni-Stuttgart
endif
endfor
endproc
procedure Normalize # gleiche Zeitinterval, f0 Werte bleiben gleich
duration = end - start
for i from index1 to index2
time = Get time from index... i
f0 = Get value at index... i
select PitchTier normactutimef0
Add point... (time-start)/duration+interval f0
#270/1,270/2...270/27=1/10，
endfor
for x from 1 to npoints
normtime = x / npoints #1/10
select PitchTier normactutimef0
f0 = Get value at time... normtime+interval
Add point... x+interval*npoints f0
select PitchTier normactuf0
Add point... normtime*duration+start-firstime f0
endfor
endproc
procedure Sampling
Create PitchTier... samplef0 0 20
found_interval = 0 # 0 ist "false",
- XXI -
Uni-Stuttgart
Uni-Stuttgart
if not label$ = "" # Interval stimmloser Laut oder Pause-Interval
# werden nicht gelabelt
duration = end - start # Dauer der Interval
if found_interval = 0
found_interval = 1
endif # das Prgramm lauft immer, bis ein gelabeltes
# Interval gefunden wird
nsamples = duration * f0_sample_rate + 1 # Dauer des Interval
multipliziert Geschwindigkeit gleich Abstand
for x from 1 to nsamples
sample_time = start + x/f0_sample_rate
f0 = Get value at time... sample_time
Add point... sample_time f0
endfor
endif
endfor
endproc
procedure Differentiation
To Sound (sine)... 1600
To Pitch... 0 75 600
Smooth... 10
Down to PitchTier
Rename... smoothf0
Create PitchTier... velocity 0 20
- XXII -
Uni-Stuttgart
if not label$ = ""
select PitchTier smoothf0
index_first = Get high index from time... start
index_last = Get low index from time... end
for x from index_first to index_last - 1
if x = index_first or x = index_last - 1
x2 = x + 1
else
x2 = x + 2
endif
select PitchTier smoothf0
f01 = Get value at index... x
f02 = Get value at index... x2
sampletime1 = Get time from index... x
sampletime2 = Get time from index... x2
velocity = (f02 - f01) * f0_sample_rate
velocity_time = 0.5 * (sampletime1 + sampletime2)
Add point... velocity_time velocity
endfor
endif
endfor
select Pitch samplef0
plus PitchTier smoothf0
plus Sound samplef0
Remove
endproc
procedure Means
- XXIII -
Uni-Stuttgart
To Intensity... 100 0 yes
Create TableOfReal... means nintervals 4
Set column label (index)... 1 meanf0
Set column label (index)... 2 mean_intensity
Set column label (index)... 3 duration
Set column label (index)... 4 max_velocity
interval = 0
if not label$ = ""
interval = interval + 1
duration = 1000 * (end - start)
start1 = start + perturbation_in_ms/1000
Set row label (index)... interval 'label$'
meanf0 = Get mean (points)... start1 end
select Intensity 'name$'
intensity = Get mean... start end energy
if get_sample_f0
mid = 0.5 * (start + end)
index_first = Get high index from time... mid
index_last = Get low index from time... end
maxvelocity = 0
for x from index_first to index_last
v = Get value at index... x
if abs(v) > abs(maxvelocity)
maxvelocity = v
endif
- XXIV -
Uni-Stuttgart
endfor
endif
Set value... interval 1 meanf0
Set value... interval 2 intensity
Set value... interval 3 duration
if get_sample_f0
Set value... interval 4 maxvelocity
endif
endif
endfor
nemptyintervals = nintervals - interval + 1
nrows = Get number of rows
if nrows > 1
for m from interval+1 to nintervals
Remove row (index)... interval+1
endfor
endif
endproc
procedure All_means file_name$
Read TableOfReal from headerless spreadsheet file...
'directory$''name$'.means
titleline$ = "Filename"
f0line$ = name$
intensityline$ = name$
durationline$ = name$
velocityline$ = name$
for n from 1 to nrows
if !hasmeanstitle
rowname$ = Get row label... n
titleline$ = "'titleline$'
endif
f0 = Get value... n 1
- XXV -
'rowname$'"
f0line$ = "'f0line$'
Uni-Stuttgart
'f0'"
intensity = Get value... n 2
intensityline$ = "'intensityline$'
'intensity'"
duration = Get value... n 3
durationline$ = "'durationline$'
'duration'"
maxvelocity = Get value... n 4
velocityline$ = "'velocityline$'
'maxvelocity'"
endfor
if !hasmeanstitle
filedelete meanf0.txt #an existing file with "filedelete fileName" can be
delated
filedelete meanintensity.txt
filedelete duration.txt
filedelete maxvelocity.txt
titleline$ = "'titleline$''newline$'"
fileappend meanf0.txt 'titleline$' # append text to a file
fileappend meanintensity.txt 'titleline$'
fileappend duration.txt 'titleline$'
fileappend maxvelocity.txt 'titleline$'
hasmeanstitle = 1
endif
f0line$ = "'f0line$''newline$'"
fileappend "meanf0.txt" 'f0line$'
intensityline$ = "'intensityline$''newline$'"
fileappend "meanintensity.txt" 'intensityline$'
durationline$ = "'durationline$''newline$'"
fileappend "duration.txt" 'durationline$'
velocityline$ = "'velocityline$''newline$'"
fileappend "maxvelocity.txt" 'velocityline$'
Remove
endproc
# The .samplef0 files contain f0 values at fixed time intervals specified by "f0
sample rate".
- XXVI -
Uni-Stuttgart
procedure All_normf0 file_name$
'directory$''name$'.timenormf0
titleline$ = "Normtime"
resultline$ = "_"+name$
if !hasnormf0
normtime$ = Get value... n 1
'normtime$'"
endif
value = Get value... n 2
resultline$ = "'resultline$' 'value'"
endfor
if !hasnormf0
filedelete normf0.txt
fileappend normf0.txt 'titleline$'
hasnormf0 = 1
endif
resultline$ = "'resultline$''newline$'"
fileappend "normf0.txt" 'resultline$'
Remove
endproc
procedure All_samplef0 file_name$
'directory$''name$'.samplef0
titleline$ = "Sampletime"
resultline$ = "_"+name$
if !hassamplef0
sampletime = Get value... n 1
if n == 1
onsettime = sampletime
- XXVII -
Uni-Stuttgart
endif
sampletime = sampletime - onsettime
'sampletime'"
endif
value = Get value... n 2
resultline$ = "'resultline$' 'value'"
endfor
if !hassamplef0
filedelete samplef0.txt
fileappend samplef0.txt 'titleline$'
hassamplef0 = 1
endif
resultline$ = "'resultline$''newline$'"
fileappend "samplef0.txt" 'resultline$'
Remove
endproc
- XXVIII -

Verankerung und Alignierung der Töne im Mandarin

Transcrição

Documentos relacionados

Microwave Analog Frontend Design

Flyer - Technologiemanagement

Englisch - Universität Stuttgart

Shops for Foreign Specialties - Hamburg

Hamburger Schreibprobe

Get Safe kooperiert mit Direktbank 1822direkt

Basic Plus Klappsessel, silber/ anthrazit Aluminiumgestell silbe

survival guide for first year students fachschaft anglistik/amerikanistik

Phonologie

QXHydEfruhMNk