pdf-Datei 17/11/2014

Transcrição

pdf-Datei 17/11/2014
Basismethoden
der Sprachver- und -bearbeitung
• Vorverarbeitung
– PoS Tagging, Namenserkennung, Shallow Parsing
• Informationsgewinnung
– Kategorisierung, Informationsextraktion
• Analyse gesprochener Sprache
– Spracherkennung, Sprechererkennung
• Synthese gesprochener Sprache
– Vorlesesysteme
• Sprachgenerierung
• Multilinguale Aspekte
• Dialogsysteme
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Part-of-Speech Tagging
• Die Wörter einer Sprache werden nach ihrer Verwendung in
Part-of-Speech (PoS) Kategorien eingeteilt.
• Hauptkategorien
– z.B. Nomen, Verb, Adjektiv, Adverb, Präposition
• Hauptkategorien werden oft weiter unterteilt
– z.B. Verb als finites Verb, Imperativ, Infinitiv, Partizip
– es gibt häufig verwendete Tagsets (meist 30-40 tags)
– für das Deutsche das Stuttgart-Tübingen-Tag-Set (STTS), für das
Englische das Penn Treebank Tag Set
• Wortformen können in mehrere Kategorien fallen
– z.B. sieben, achten, meinen, ihr, der, Gründen
– im Deutschen sind fast 30% der Wörter im Text ambig
© Harald Trost
VU Multimedia und Sprache
WS2014/15
1
PoS Tagging:
Stuttgart-Tübingen Tag Set (STTS)
ADJA attr. Adj.
ADJD präd. A
ADV
Adverb
APPR Präposition.
APPRART Präp. + Art.
APPO Postpos.
APZR Zirkumpos.re.
ART
Artikel
CARD Zahl
FM
Fremdspr.
ITJ
Interjektion
KOUI
Konj. uo.
KOUS Konj. uo.
KON
Konj. no.
KOKOM Konj. vergl.
NN
Nomen
NE
Name
© Harald Trost
PDS
Dem.pron.
PDAT Dem.pron.
PIS
Indef.pron
PIAT
Indef.pron
PIDAT Indef.pron
PPER Pers.pron
PPOSS Poss.pron
PPOSAT Poss.pron.
PRELS Rel.pron.
PRELAT Rel.pron.
PRF
Pers.pron.
PWS
Fragepron.
PWAT Fragepron.
PWAV Fragepron.
PAV
Pron.adv.
PTKZU zu
PTKNEG Negation
A DJ A
A DJ D
A DV
A PP
RA
PP
O
PTKVZ Verbzusatz
PTKANTAntwortpart.
PTKA Part. bei Adj.
TRUNC Komp.
VVFIN Verb finit
VVIMP Verb Imp.
VVINF Verb Infin.
VVIZU Verb Infin.
VVPP Part. Perf.
VAFIN Aux. finit
VAIMP Aux. Imp.
VAINF Aux Infin.
VAPP Aux. Part.
VMFIN Mod. finit
VMINF Mod. Imp.
VMPP Mod. Part.
XY
Nichtwort
WS2013/14
VU Multimedia und Sprache
PoS Tagging:
Beispiel: Ambiguität des Tags
Ich
muss
PPER VMFIN
meinen Freunden
PPOSS NN
helfen.
VVINF
Die sieben Personen meinen ihr
zu
helfen.
ART CARD NN
VVFIN PPER PTKZU VVINF
Das will
ich
PDS VMFIN PPER
© Harald Trost
meinen.
VVINF
VU Multimedia und Sprache
WS2014/15
2
PoS Tagging:
Part-of-Speech Tagging
• Die Zuordnung der korrekten Kategorie zu jedem Wort
einer Äußerung ist oft ein wichtiger
Vorverarbeitungsschritt.
• Unterschiedliche Technologien
– n-gramme und Hidden Markov Modelle (HMM)
– gelernte Regeln (z.B. Brill-Tagger)
• Ergebnis:
– Personen machen beim Annotieren etwa 1-2% Fehler
– Baseline (nimm für jede Wortform die häufigste Lesart)
ergibt im Deutschen eine Fehlerrate von etwa 20%
– gute Tagger erzielen eine Fehlerrate von ca. 2-4%
© Harald Trost
VU Multimedia und Sprache
WS2014/15
PoS Tagging:
Statistisches Tagging
• Die Basis bildet ein (großer) Korpus, der mit korrekten
PoS-Tags versehen ist.
• Es wird die Auftrittswahrscheinlichkeit jeder Kombination
“Wort - PoS-Tag” berechnet.
– Z.B. sieben als CARD vs. VVFIN vs. VVINF
• Es wird die Auftrittswahrscheinlichkeit aller möglichen ngramme (meist Bigramme oder Trigramme) von PoS-Tags
berechnet.
• Mithilfe eines Hidden Markov Models (HMM) kann dann
für jeden Satz die wahrscheinlichste Zuordnung von PoSTags gefunden werden.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
3
PoS Tagging:
Statistisches Tagging - Beispiel
Die sieben Personen meinen ihr
zu
helfen.
ART CARD NN
PPOSS PPOSS PTKZU VVFIN
PDAT VVFIN
VVFIN PPER APPR VVINF
VVINF
VVINF
Aanzahl der theoretisch möglichen Lesarten:
2 * 3 * 1
*
3 * 2 * 2 * 2 = 144
© Harald Trost
VU Multimedia und Sprache
WS2014/15
PoS Tagging:
Statistisches Tagging - Wahrscheinlichkeiten
• Wortwahrscheinlichkeiten:
– Unigramme
– geben die Wahrscheinlichkeit wieder, dass ein Wort eine
bestimmte Kategorie realisiert.
– Pdie/ART, Pdie/PDAT, Psieben/CARD,…
• Wahrscheinlichkeiten für Folgen von PoS-Tags
– Bigramme (manchmal auch Trigramme)
– P0,ART, PART,CARD , PCARD,NN , PNN,PPOS , PPPOS,PPOS ,...
• Berechnung der Wahrscheinlichkeit einer bestimmten Folge von PoS
Tags für den Satz:
– P0,ART* Pdie/ART * PART,CARD * Psieben/CARD * PCARD,NN *…
• Die Folge mit der höchsten Wahrscheinlichkeit wird ausgewählt.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
4
Basismethoden Sprachverarbeitung:
Parsing
• Parsing nennt man die strukturelle (syntaktische) Analyse
von Sätzen.
• Ergebnis meist als Phrasenstruktur bzw.
Dependenzstruktur in Form eines Satzbaums dargestellt:
• Auf der strukturellen Ebene sind Sätze fast immer
mehrdeutig.
© Harald Trost
WS2013/14
VU Multimedia und Sprache
Flaches und partielles Parsen:
Syntaxstruktur und Ambiguität
S
VP
PP
NP
NP
PronI Verb
Ich
© Harald Trost
Art Noun Prep Art
PP
NP
Noun
NP
Prep Noun
sehe den Ma nn mit dem Fernrohr im
VU Multimedia und Sprache
Park
WS2014/15
5
Flaches und partielles Parsen:
Syntaxstruktur und Ambiguität
S
VP
NP
PP
NP
PP
NP
NP
PronI Verb
Ich
NP
Art Noun Prep Art
Noun
NP
Prep Noun
sehe den Ma nn mit dem Fernrohr im
© Harald Trost
Park
WS2014/15
VU Multimedia und Sprache
Flaches und partielles Parsen:
Syntaxstruktur und Ambiguität
S
VP
NP
PP
PP
NP
NP
PronI Verb
Ich
© Harald Trost
Art Noun Prep Art
NP
Noun
NP
Prep Noun
sehe den Ma nn mit dem Fernrohr im
VU Multimedia und Sprache
Park
WS2014/15
6
Flaches und partielles Parsen:
Syntaxstruktur und Ambiguität
S
VP
PP
NP
PP
NP
NP
PronI Verb
Ich
© Harald Trost
Art Noun Prep Art
NP
Noun
NP
Prep Noun
sehe den Ma nn mit dem Fernrohr im
VU Multimedia und Sprache
Park
WS2014/15
Flaches und partielles Parsen:
Syntaxstruktur und Ambiguität (2)
• Beispielsatz:
– “Ich sehe den Mann mit dem Fernrohr im Park.”
• Analysen:
–
–
–
–
[VP[Vsehe] [NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]]
[VP[Vsehe] [NPden Mann] [PPmit [NP[NPdem Fernrohr] [PPim [NPPark]]]]
[VP[Vsehe] [NP[NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]]]
[VP[Vsehe] [NP[NPden Mann] [PPmit [NP[NPdem Fernrohr] [PPim
[NPPark]]]]]]
– [VP[Vsehe] [NP [NP[NPden Mann] [PPmit [NPdem Fernrohr]] [PPim
[NPPark]]]
© Harald Trost
VU Multimedia und Sprache
WS2014/15
7
Basismethoden Sprachverarbeitung:
Flaches und Partielles Parsing
• Parsing ist die strukturelle (syntaktische) Analyse.
• Eine vollständige, korrekte Analyse ist oft nicht machbar:
– keine vollständige Grammatik natürlicher Sprache
– fehlerhafte Daten
– Effizienzprobleme
– Ambiguität!
• Aus diesen Gründen beschränkt man sich oft auf eine flache und/oder
partielle Analyse
• Dabei werden nur eindeutig interpretierbare Konstituenten analysiert.
– flache Struktur (keine tiefen Anbindungen)
– die Analyse kann lückenhaft bleiben
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Flaches und partielles Parsen:
Identifizierte Konstituenten
• Es werden Konstituenten identifiziert, die eindeutig
erkennbar sind.
– Kernnominalphrasen - Determiner bis Hauptnomen
• z.B. “dieses sehr teure Auto”
– Präpositionalphrasen
• z.B. “mit 3 Sitzbänken”, “um teures Geld”
– Verbkomplex
• z.B. “kaufen hat müssen”
• Grenzen eindeutig erkennbar
• Struktur nicht unbedingt korrekt - Anbindung!
• Restliche Wörter im Satz werden ignoriert!
© Harald Trost
VU Multimedia und Sprache
WS2014/15
8
Flaches und partielles Parsen:
Flache Analyse: Beispielsatz
•
•
•
•
•
[NPIch]
[Vsehe]
[NPden Mann]
[PPmit [NPdem Fernrohr]]
[PPim [NPPark]]
© Harald Trost
Nominalphrase
Verbkomplex
Nominalphrase
Präpositionalphrase
Präpositionalphrase
WS2014/15
VU Multimedia und Sprache
Flaches und partielles Parsen:
re
•
p+A
rt:[
PP
P
Verarbeitung: Endliche Automaten
rt
pA
Art:Art
Pre
Q4
p
Pre
PP
Pre
p:[
Art:[PPPre
Prep+
pA
Pr
PP
ep
Q1 Art: [NPArt Q2
Noun:Noun]
Pron:[NPPron]
Rest:Rest
Noun:[NPNoun]
Pron:[NPPron]
PP
NP
NP
Pron Verb
Ich
© Harald Trost
•
•
rt
Rest:Rest
Noun:Noun]
:[
ep
Art:[NPArt
un]
Pr
Noun:[NPNoun]
Q0
:No
Pro
n:P
ron
]
un
No
Q3
Zum flachen Parsen werden
oft endliche Automaten
(Transducer) eingesetzt:
effizient und schnell
für das Ableiten nicht
ambiger Strukturen
ausreichend
Art Noun Prep Art
PP
NP
Noun
NP
Prep Noun
sehe den Mann mit dem Fernrohr im
VU Multimedia und Sprache
Park
WS2014/15
9
Flaches und partielles Parsen:
Verarbeitung: Endliche Automaten
Ich
Pron Q0
sehe Verb Q2
[NPIch]
den
Art
Q0
[NPIch] sehe
[NPIch] sehe [NPden
Mann Noun Q1
mit
Prep Q2
[NPIch] sehe [NPden Mann]
[NPIch] sehe [NPden Mann] [PPmit
dem Art
Q3
… [PPmit dem
Fernrohr Noun Q4
im
Prep Q2
… [PPmit dem Fernrohr]
Park Noun Q3
… [PPmit dem Fernrohr] [PPim
.
Q2
…dem Fernrohr] [PPim Park]
[NPIch] sehe [NPden Mann] [PPmit dem Fernrohr] [PPim Park]
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Namenserkennung
• Ziel ist die Erkennung von
– Personennamen
– Firmennamen/Organisationen
– Geographischen Namen
– Datumsangaben
– Prozentangaben
– Beträgen
• Die Erkennung solcher Bezeichnungen ist ein wesentlicher
Vorverarbeitungsschritt.
• Methoden basieren auf:
– manuell erstellten Regeln
– automatischen Lernverfahren
© Harald Trost
VU Multimedia und Sprache
WS2014/15
10
Named Entity Recognition:
Definition in MUC-6
• Arten von Named Entities (NE):
– ENAMEX (type= person, organisation, location)
– TIMEX (type= time, date)
– NUMEX (type= money, percent)
• Die Verwendung von Gazetteers ist erlaubt.
• ENAMEX ist schwieriger, weil mehr vom Kontext
abhängig als TIMEX und NUMEX:
– Ist Granada eine COMPANY oder eine LOCATION?
– Ist Washington eine PERSON oder eine LOCATION?
– Ist Arthur Anderson eine PERSON oder eine
ORGANISATION?
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Namenserkennung:
Beispiel von MUC-7
<ENAMEX TYPE=“LOCATION”>Italy</ENAMEX>’s
business world was rocked by the announcement <TIMEX
TYPE=“DATE”>last Thursday </TIMEX> that Mr.
<ENAMEX TYPE=“PERSON”>Verdi </ENAMEX> would
leave his job as vice-president of <ENAMEX
TYPE=“ORGANISATION”>Music Masters of Milan,
Inc</ENAMEX> to become operations director of
<ENAMEX TYPE=“ORGANISATION”> Arthur
Anderson</ENAMEX>.
• Beachte:
• “Milan” ist Teil des Namens einer Organisation
• “Arthur Anderson” ist eine Organisation
© Harald Trost
VU Multimedia und Sprache
WS2014/15
11
Namenserkennung:
Namenslexikon (Gazetteer)
• Namen werden in Lexikon eingetragen:
– Georg, Wien, San Salvador, Donau, IBM, Goethe, etc.
• Probleme:
– es gibt zu viele Namen
– ständiger Wechsel
– erscheinen in unterschiedlichen Formen
• USA, U.S.A., US
– bei Mehrfachauftreten Verkürzungen:
• Die Erste Bank AG, Die Erste
– Identifizierung ist kontextabhängig:
• Herr Schüssel; Lebenshilfe, ein Verein für…
• Daher: zusätzliche Methoden nötig.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Namenserkennung:
Verfügbare Information
• History (ableitbar aus Korpus)
– Textfenster um Wort wi, z.B. wi-3,…wi+3
– Merkmale des Wortes wi
• vierstelligeZahl = Jahreszahl (z.B. 2003)
• andereZahl = Zahl (z.B. 63121)
• enthältKomma = Betrag (z.B. 3,14)
• nurGrossbuchstaben = Organisation (z.B. UNO)
• GrossbuchstabePunkt = Vorname (z.B. H.)
– PoS-Tag, komplexe Merkmale
• Binäre Merkmale, die aus Korpus ableitbar sind
• Spezielle Namensklassen
– z.B. Titel, Vorname, Organisationstyp
© Harald Trost
VU Multimedia und Sprache
WS2014/15
12
Namenserkennung:
Regelbasierte Methode
• Namenslexikon als Basis
• Verwendung kontextsensitiver Regeln
– meist reguläre Ausdrücke
– verwenden spezifische Wortklassen
– verwenden spezielle Stringeigenschaften der Wörter
• Beispiele
– <Titel> <NE> <NN>  <Titel> <Vorname> <Person>
• z.B. “Herr Alfons Berg”
– <NN> , <Art> <Organisationstyp> für
• z.B. “Lebenshilfe, ein Verein für…”
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Namenserkennung:
Statistische Methoden
• Typische Methode beruht auf Sequence Labeling
– 3 Labels: B(egin), I(nside), O(utside)
– Indiziert für die gesuchten Namensklassen.
• Bei Supervised Learning wird ein Korpus entsprechend
annotiert.
– Gleichzeitig werden die – beim regelbasierten Ansatz
besprochenen – Merkmale extrahiert.
– Spezielle Wortklassen und Gazetteers können ebenfalls zur
Annotation verwendet werden.
• Auf der Grundlage dieses annotierten Korpus kann dann z.B.
ein HMM trainiert werden.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
13
Namenserkennung:
Hybride Ansätze
• Kombinieren regelbasierte und statistische Methoden; z.B.
Kaskadierte Namenserkennung (Mikheev et al. 1998)
– Kaskadiertes Sytem, das regelbasierte Schritte mit „probabilistic partial
matching“ kombiniert
– Verwende maschinell gelernte Information um den Typ eines Namens
festzulegen
– Verwende die interne Struktur von Namen zur Entscheidungsfindung
– Triff zuerst Entscheidungen hoher Präzision (sure fire rules)
– Triff Entscheidungen, die unsicher sind erst nachdem die gesamte
Evidenz vorliegt.
– Annahme: Jeder Name kann pro Diskurs (Artikel) genau einem Typ
zugeordnet werden.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Informationsextraktion (IE)
• Das gezielte Suchen nach spezifischer Information aus
großen Mengen von frei formulierten Texten
• Eingabe:
– Die gesuchte Information wird in Form einer
Schablone (template) dargestellt.
• Ausgabe:
– Zu jedem gefundenen relevanten Text wird eine
instantiierte Schablone geliefert.
• Anwendungsbereich:
– Texte mit faktischer Information
– Keine Spezialkenntnisse für Verstehen nötig
© Harald Trost
VU Multimedia und Sprache
WS2014/15
14
Basismethoden Sprachverarbeitung:
Beispiel für Schablone
Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus
dem Amt. Der 65jährige tritt
seinen wohlverdienten
Ruhestand an. Als seine
Nachfolgerin wurde Sabine
Klinger benannt. Ebenfalls
neu besetzt wurde die
Stelle des Musikdirektors.
Anneliese Häfner folgt
Christian Meindl nach.
© Harald Trost
• Schablone:
[PersonOut PersonIn Position
Organisation Time]
• Ergebnis1:
[PersonOut
PersonIn
Position
Organisation
Time
]
• Ergebnis2:
[PersonOut
PersonIn
Position
Organisation
Time
]
VU Multimedia und Sprache
Dr.Hermann Wirth
Sabine Klinger
Leiter
MHS München
heute
Christian Meindl
Anneliese Häfner
Musikdirektor
MHS München
WS2013/14
Informationsextraktion:
Komponenten
• Tokenizer
– Normalisiert Text durch Entfernen von überflüssigen
Sonderzeichen und Leerzeichen, Expansion von
Abkürzungen, Interpretation fixer Formate, etc.
• Lexikalische Analyse
– PoS, Flexionsform, Komposita, Hyphenkoordination
• Namenserkennung
• Parsing
• Koreferenzauflösung
• Extraktion domänenspezifischer Information
• Unifikation von Schablonen
© Harald Trost
VU Multimedia und Sprache
WS2014/15
15
Informationsextraktion:
Parsing
• Chunk parsing = kaskadierter Ansatz
– iterative Anwendung eines flachen und partiellen Parsers
– im ersten Durchlauf werden einfache, nichtrekursive
Phrasen identifiziert (NP, PP, VC).
– In weiteren Durchgängen werden diese zu komplexeren
Einheiten kombiniert
• z.B. Koordination (und, oder), Anbindung
• Verwendung domänenspezifischen Wissens
– unter Umständen auch Identifikation funktionaler
Einheiten
• Subjekt, Objekt, etc.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Informationsextraktion:
Koreferenzauflösung - Problem
• Entitäten können im Text in unterschiedlicher Form
referenziert werden.
– Eigennamen
• Bill Gates, William Gates, Herr Gates, etc.
– Definite Nominalphrasen
• der Präsident von Microsoft, der Erfinder von
Windows, der reichste Mann der Welt, etc.
– Pronomina
• er, sie, es, etc.
• Zeitliche Referenzen
– heute, letzte Woche, vor 3 Jahren, etc.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
16
Informationsextraktion:
Koreferenzauflösung - Methode
• Markiere jeden Referenzausdruck (meist Nominalphrase)
mit
– Typinformation
• belebt/unbelebt, Organisation, Ort, etc.
– Syntaktischer Information
• Numerus (Singular, Plural)
• Genus (feminin, maskulin, neutrum)
• Weitere Merkmale
– Name, Pronomen, definit/indefinit, etc.
– Weiterer domänspezifische Information
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Informationsextraktion:
Koreferenzauflösung - Methode (2)
• Bestimme mögliche Antezedenten im Text
• Der Bereich ergibt sich aus der Art des Ausdrucks
– Eigennamen: der ganze vorhergehende Text
– Nominalphrasen: Teil des vorhergehenden Texts
(experimentell zu bestimmen)
– Pronomina: einige vorhergehende Sätze (Paragraph)
• Überprüfe Konsistenz
– syntaktische Konsistenz (Numerus, Genus)
– semantische Konsistenz (Typinformation)
• aus manuell erstellter Typhierarchie
• aus vorhandener Ontologie
• Wähle aus Kandidaten heuristisch aus
– Nähe, links-rechts, Subjekt-Objekt, etc.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
17
Informationsextraktion:
Extraktion domänenspezifischer
Information
• “Molekularer” Ansatz
– basiert auf Regeln (Mustern), die den (syntaktischen und
semantischen) Kontext berücksichtigen;
– beginne mit sehr verlässlichen Mustern, erweitere nach
Bedarf;
– Muster können hierarchisch definiert werden.
• “Atomarer” Ansatz
– basiert auf Interpretation der Typinformation von
Nominal- und Verbphrasen ohne Berücksichtigung des
Kontexts;
– jedes Auftreten einer Nomen/Verb-Kombination mit den
entsprechenden Eigenschaften bewirkt die
Merkmalsinstantiierung in der Schablone.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Informationsextraktion:
Unifikation von Schablonen
• Schablonen werden satzweise mit Information gefüllt.
• Dadurch kann wesentliche Information auf mehrere
Schablonen verteilt sein.
• Um möglichst vollständige Information zu erhalten,
müssen Schablonen unifiziert werden.
– Sorteninformation untersuchen auf
• Inkonsistenz, Koreferenz, Subsumption
– Anwenden weiterer Heuristiken
• implizite Beziehungen
• Externe Wissensbasen (z.B. WordNet)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
18
Informationsextraktion:
Unifikation von Schablonen (2)
Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt.
•
•
Als seine Nachfolgerin wurde
Sabine Klinger benannt.
•
•
Ergebnis:
•
•
© Harald Trost
[PersonOut
PersonIn
Position
Organisation
Time
[PersonOut
PersonIn
Position
Organisation
Time
[PersonOut
PersonIn
Position
Organisation
Time
VU Multimedia und Sprache
Dr.Hermann Wirth
Leiter
MHS München
heute
]
Dr.Hermann Wirth
Sabine Klinger
]
Dr.Hermann Wirth
Sabine Klinger
Leiter
MHS München
heute
]
WS2014/15
Informationsextraktion:
Evaluation
• Präzision (precision)
– der Anteil der richtigen an den insgesamt gefundenen
Texten
• Vollständigkeit (recall)
– der Anteil der gefundenen von den insgesamt
vorhandenen Texten
• F-Maß
( β  1) * P *V
F
 * P V
– üblicherweise =1
• Diese Maße stammen aus dem Information Retrieval. Die
Güte der Antwort wird nicht berücksichtigt.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
19
Basismethoden Sprachverarbeitung:
Analyse gesprochener Sprache
• Spracherkennung
– das automatische Übertragen gesprochener Sprache in
Text.
• Sprechererkennung
– Sprecheridentifikation: identifiziert den jeweiligen
Sprecher
– Sprecherverifikation: überprüft, ob die Stimme einem
vorgegebenen Sprecher entspricht.
• Sprachenerkennung (Sprachenidentifikation)
– die Identifikation der Sprache, in der gesprochen wird.
– auch für geschriebene Sprache (Texte) relevant!
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Analyse gesprochener Sprache:
Spracherkennung
• Parameter, die die Komplexität der Aufgabe und die
Qualität der Erkennungsleistung beeinflussen
– kontinuierlich vs. diskontinuierlich
• bei einfachen Systemen müssen zwischen den
Wörtern deutliche Pausen gemacht werden.
– Einzelsprecher vs. sprecherunabhängig
• Systeme können an einen Sprecher trainiert werden,
um die Qualität zu erhöhen
– beliebiges (großes) vs. spezielles (kleines) Vokabular
• ein begrenztes Vokabular erhöht die Qualität der
Erkennung
– Aufnahmequalität
• limitierte Bandbreite (Telefon), Nebengeräusche
© Harald Trost
VU Multimedia und Sprache
WS2014/15
20
Spracherkennung:
Problematik
• Phonetische Variabilität
– Koartikulation, Assimilation, etc.
• akustische Variabilität
– Kanal, Nebengeräusche, Entfernung, Position, etc.
• Sprechervariabilität intern
– Stimmqualität, Sprechrate, Emotion, etc.
• Sprechervariabilität extern
– Geschlecht, Alter, Dialekt, etc.
• Menschen verarbeiten Sprache kontextabhängig
– [ɑɪskrˈɪːm]
I scream vs. Ice cream
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Spracherkennung:
Problematik (2)
[ˈhast] [ˈdu:] [ˈ?aɪnɘn] [moˈmɛnt] [ˈtsaɪt]
[ˈhas
d̥ʊ aɪnɘn
moˈmɛn ˈtsaɪt]
[ˈhas
d̥ʊ aɪn
moˈmɛn ˈtsaɪt]
[ˈhɔs
d̥ʊ n
moˈmɛn ˈtsaɪt]
[ˈhɔs
d̥ʊ n
moˈmɛn ˈtsaɪt]
[ˈhɔs
d̥ʊ m
moˈmɛn ˈtsaɪt]
© Harald Trost
VU Multimedia und Sprache
Standard


spontan
WS2014/15
21
Spracherkennung:
Architektur
•
•
•
•
Die Vorverarbeitung konvertiert das Sprachsignal in eine Folge von
Merkmalsvektoren in Intervallen von eta 10ms.
Das akustische Modell berechnet die Wahrscheinlichkeit, dass eine Folge von
Vektoren einem Wort entspricht.
Das Language Model berechnet die Wahrscheinlichkeit einer Folge von Wörtern
Der Hypothesengenerator testet alle Möglichkeiten und wählt die mit dem
höchsten Score aus
© Harald Trost
VU Multimedia und Sprache
WS2013/14
Spracherkennung:
Komponenten
• Diskretisierung
– Abtastung, Quantisierung
• Sprachsignalkurzzeitanalyse
– Fensterfunktion, Merkmalsextraktion
• Vektorquantisierung
– Abbildung auf digitale Merkmale
• (lautliches) Wortmodell
• (grammatisches) Sprachmodell
© Harald Trost
VU Multimedia und Sprache
WS2014/15
22
Spracherkennung:
Sprachsignalkurzzeitanalyse
• Signal ist nur über kurze Intervalle (quasi-)stationär (5-30 ms)
• Fensterfunktion
– Rechteckfenster, Hammingfenster, etc.
• Extrahierte Merkmale:
– Kurzzeitenergie, Spektrum, Cepstrum, Lineare Vorhersage
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Spracherkennung:
Vektorquantisierung
• Die Abbildung des
kontinuierlichen Signals
auf digitale Merkmale
– Datenreduktion
– Klassifizierung
– Abstandsbestimmung
© Harald Trost
VU Multimedia und Sprache
WS2014/15
23
Spracherkennung:
Wortmodell
• Jedes Phonem in einem Wort entspricht einer Menge von
Modellzuständen (typischerweise 3 – initial, mittig und final).
• Wenn ein Sprecher ein Wort spricht, bleibt er mit einem oder mehreren
Frames in einem Modellzustand und wechselt dann in den nächsten.
– abhängig von Sprechgeschwindigkeit
– unterschiedliche Laute haben unterschiedliche Dauer
© Harald Trost
VU Multimedia und Sprache
WS2013/14
Spracherkennung:
Wortmodell (2)
• Analyse mithilfe von HMMs in zwei Ebenen:
• Phonemanalyse:
– Phoneme werden als Menge von Allophonen aufgefaßt.
– Für jedes Allophon wird ein eigenes HMM trainiert.
• Wortanalyse:
– Einzelne Wörter werden als Netzwerke von Phonemen
dargestellt.
– Jeder gültige Pfad durch das Netzwerk entspricht einer
Aussprachevariante.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
24
Spracherkennung:
Wortmodell (3)
• Auf diese Weise wird die gesamte Äußerung analysiert.
– Problem: Wortgrenzen nicht markiert
• Als Ergebnis entstehen verschiedene Interpretationen
unterschiedlicher Plausibilität.
• Sie werden dargestellt als
– n-best Wortsequenzen
– Netzwerk mit Übergangswahrscheinlichkeiten
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Spracherkennung:
Sprachmodell
• Korrekte Worterkennung basiert nicht alleine auf
akustisch/phonetischer Analyse, sondern auch auf dem
Kontext.
• Das Wortmodell liefert unterschiedliche Varianten von
Wortfolgen.
• Spracherkenner verwenden ein (statistisches) Sprachmodell,
das aus einem großen (hunderte Millionen Wörter) Korpus
abgeleitet wird.
• Die Vorgangsweise basiert (ähnlich dem statistischen PoSTagging) auf der Identifikation der plausibelsten Wortfolge
durch ein HMM.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
25
Spracherkennung:
Multilinguale Spracherkennung
•
•
•
•
Verwende internationalen Phonemvorrat
bilde sprachspezifische Wortmodelle darauf ab.
Problem: Phoneme unterschiedlich realisiert!
Lösung: Beginne mit sprachspezifischen Realisierungen,
z.B. /ajapan/, /akorean/, /aspan/, etc.
Von links nach rechts:
einsprachig,
tagged (7500 models)
tagged (3000 models)
ohne Tags
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Sprechererkennung
• Das System vergleicht den Sprecher mit vorhandenen
Sprechproben.
• Methode: Merkmalsvektoren der Beispiele werden mit
aktueller Probe verglichen.
• Zwei Ansätze:
– textabhängig: der Sprecher muß eine bestimmte
Wortfolge (wie beim Training) äußern.
– Textunabhängig: der Sprecher kann beliebige Äußerungen
machen
• Zwei Applikationen:
– Sprecheridentifikation
– Sprecherverifikation
© Harald Trost
VU Multimedia und Sprache
WS2014/15
26
Sprechererkennung:
Sprecheridentifikation
• Sprecheridentifikation identifiziert den Sprecher als
bestimmtes Mitglied einer vorgegebenen Gruppe:
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Sprechererkennung:
Sprecherverifikation
• Sprecherverifikation überprüft, ob die angegebene
Identifikation des Sprechers korrekt ist.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
27
Basismethoden Sprachverarbeitung:
Sprachenidentifikation
• Phonembasiert
– Phonemerkenner erzeugt Folge von Phonemen
– Berechne Verteilung der Phoneme
– Vergleiche mit für einzelne Sprachen typischen Verteileilungen
• Verwendung phonotaktischen Wissens
– Silbenerkenner erzeugt Folge von Silben
– Kombiniere HMMs, die phonotaktische Eigenschaften
der einzelnen Sprachen codieren zu einem
“Einzelworterkenner”
• Spracherkenner mit großem Vokabular
– Analysiere mit Spracherkennern für die verschiedenen
Sprachen und vergleiche Ergebniswahrscheinlichkeiten.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Synthese gesprochener Sprache
• Reproduktive Systeme
– zusammenhängende Äußerungen bzw. Teile von
Äußerungen werden aufgenommen
– ursprüngliche Stimme erkennbar
– Vorteil: hohe Sprachqualität
– Nachteil: wenig flexibel, hoher Aufwand
• Vollsynthese
– Äußerungen werden ohne direkt auf Aufnahmen
zurückzugreifen synthetisiert
– keine spezielle Stimme erkennbar
– Vorteil: flexibel, geringer Aufwand
– Nachteil: schlechtere Sprachqualität
© Harald Trost
VU Multimedia und Sprache
WS2014/15
28
Synthese gesprochener Sprache:
Historische Beispiele
• VODER (Homer Dudley, 1939)
• OVE (Gunnar Fant, 1953)
• DECtalk (1973)
• Artikulatorisches System (Bernd Kröger)
• “Bonus track”
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Synthese gesprochener Sprache:
Vollsynthese: Methoden
• Konkatenative Synthese
– aufgenommenes Sprachmaterial wird in kleinsten Einheiten
abgespeichert
– die Einheiten werden nach Bedarf rekomponiert
• Unit Selection
• Formantsynthese
– verwendet ein akustisches Modell (Quelle-Filter-Modell)
• artikulatorische Synthese
– verwendet ein (mathematisches) Modell des menschlichen
Sprechapparats
– Äußerungen entstehen durch “Imitation” des
Sprechvorgangs
© Harald Trost
VU Multimedia und Sprache
WS2014/15
29
Synthese gesprochener Sprache:
Artikulatorische Synthese
• Simuliert die (physiologischen Parameter der)
Sprachproduktion
• Komponenten
– Glottismodell generiert Anregungssignal
– dynamisches Vokaltraktmodell
– simulierte Artikulatorbewegungen
– akustisches Modell der Resonanzen und Bandbreiten
• Problem: existierende Daten über reale
Artikulationsabläufe sind unzureichend
• Attraktiv für Grundlagenforschung, derzeit ist die für
Anwendungen erzielbare Qualität zu schlecht.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Artikulatorische Synthese:
Vokaltraktmodell
© Harald Trost
VU Multimedia und Sprache
WS2013/14
30
Artikulatorische Synthese:
Parameter
Symbol
VA
LP
LA
TH
TP
TTH
TTP
GA
CT
PR
© Harald Trost
Name
Velumsöffnung
Lippenstülpung
Lippenöffnung
Zungenhöhe
Zungenposititon
Zungenspitzenhöhe
Zungenspitzenposition
Glottisöffnung
Stimmlippenspannung
Lungendruck
Wertebereich
[-100, 100]
[0, 100]
[0, 100]
[-100, 100]
[-100, 100]
[0, 100]
[-200, 100]
[-400, 600]
[0, 200]
[0, 200]
VU Multimedia und Sprache
WS2013/14
Artikulatorische Synthese:
Gestische Partitur
© Harald Trost
VU Multimedia und Sprache
WS2014/15
31
Artikulatorische Synthese:
Beispiel
• Beispielsatz:
“Das ist mein Haus.”
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Synthese gesprochener Sprache:
Formantsynthese
• Akustisches Sprachmodell
• Basiert auf dem Quelle-Filter-Modell
• Vorteile:
– einfache Beeinflussung aller prosodischen Parameter
– beliebige Stimmen erzeugbar
• Nachteile:
– gute Qualität kann nur durch optimale Setzung der
Parameter erreicht werden, was extrem aufwändig ist.
• Beispiel: das von Klatt entwickelte MITtalk
© Harald Trost
VU Multimedia und Sprache
WS2014/15
32
Synthese gesprochener Sprache:
Formantsynthese (2)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Synthese gesprochener Sprache:
Formantsynthese (3)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
33
Synthese gesprochener Sprache:
Konkatenative Synthese
• Die Synthese greift auf ein Inventar aufgenommener
Sprache eines realen Sprechers zurück.
• Die Länge der aufgenommenen Einheiten ist je nach
Methode unterschiedlich.
• Die aufgenommenen Stücke werden bei der Synthese
rekombiniert.
• Probleme:
– Die Stücke müssen zusammenpassen (Energie, f0)
– Die Stücke müssen an gewünschte Prosodie angepasst
werden (f0, Dauer)
– Die Stimmqualität ist durch den Sprecher festgelegt.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Konkatenative Synthese:
Einheiten für Inventare
• Allophone (ca. 50) - ungebräuchlich
• Diphone (einige hundert)
– von der “Mitte” eines Phons bis zur “Mitte” des
nächsten
• Triphone
• Halbsilben (1000 - 2000)
• Gemischte Inventare
– z.B. Halbsilben, Diphone und Suffixe
• “Unit Selection”
– dynamische Auswahl zur Laufzeit aus einem
großen, entsprechend annotierten Korpus
© Harald Trost
VU Multimedia und Sprache
WS2014/15
34
Konkatenative Synthese:
Unit Selection
• großer Corpus (mehrere Stunden) von einem Sprecher
• Annotation:
– nach Phonen, Silben, Morphemen, Wörtern
– meist durch „forced alignment“ eines Spracherkenners
– f0, Dauer und weitere akustische Parameter
• Synthese:
– für die benötigte Äußerung wird dynamisch die beste
Kette verfügbarer „Units“ generiert.
– meist mit Hilfe eines Entscheidungsbaums
• keine Anpassung der „Units“ erforderlich, dadurch relativ
natürliche Stimme
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Synthese gesprochener Sprache:
HMM-basierte Synthese
• Variante der Formantsynthese
• Parameter werden statistisch – durch Hidden Marcov
Model – berechnet
• Dadurch wird das extrem aufwändige manuelle Tuning der
Parameter automatisiert. Die Parameter werden aus einem
Sprachkorpus gelernt.
• Die grundsätzlichen Vorteile der Formant-Synthese
gegenüber konkatenativen Verfahren kommen bei
vergleichbarer Sprachqualität zum Tragen:
– Vollsynthese – keine Sprecher nötig
– Beliebig viele Stimmen
– Beliebige Varianten einer Stimme (Sprechstile, Emotion, etc.)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
35
Synthese gesprochener Sprache:
Vorlesesysteme (Text-to-speech)
• Dienen dem Vorlesen elektronisch gespeicherter Texte
• Komponenten:
– Vorverarbeitung
• Tokenization
• Analyse zur Bestimmung phonologischer Phrasen
• Abbildung von Schrift auf Lautdarstellung
• Bestimmung der prosodischen Parameter (f0, Dauer)
– Sprachsynthese
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Vorlesesysteme:
Abbildung Schrift - Laute
• Lexikonbasiert
• für nicht im Lexikon enthaltene Ausdrücke (z.B.
Namen) muss es ein automatisches Abbildungsverfahren geben (letter-to-sound-rules).
• Probleme:
– fremdsprachige Ausdrücke
– Akronyme (NATO vs. SPÖ)
– Segmentierung (Häschen)
– Akzent (‘durchschauen vs. durch’schauen)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
36
Vorlesesysteme:
Bestimmung prosodischer Parameter
• Festlegung von
– Sprachgrundfrequenz
– Dauer einzelner Laute oder Silben
– Intensität
• Zwei Methoden:
– Lernen aus Korpus
• Neuronale Netze
• Maschinlernverfahren
– regelbasiert auf der Basis von Beschreibungsmodellen
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Sprachgenerierung
• Der Prozess der Generierung von Text (oder
gesprochenen Äußerungen), um bestimmte
Sachverhalte, Informationen, etc. auszudrücken
• Methoden
– Canned Text
– Schablonen
– volle Generierung
© Harald Trost
VU Multimedia und Sprache
WS2014/15
37
Sprachgenerierung:
Methoden
• Canned Text
– verwendet vorgefertigte Phrasen und Texte.
• Pro: einfach und robust, jeder Stil möglich
• Con: unflexibel, nur für einfache Anwendungen
• Generierung mit Schablonen
– verwendet vorgefertigte Bausteine, die aber Stellen
beinhalten, an denen spezifisches Material eingefügt
werden kann.
• Pro: ebenfalls einfach und robust, dabei flexibler
• Con: ebenfalls nur für restringierte Anwendungen
• Volle Generierung
– produzierte weitgehend beliebigen Text, der durch eine
entsprechende Eingabestruktur spezifiziert wird.
• Pro: flexibel, auch für komplexe Anwendungen
• Con: aufwändig
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Volle Generierung:
Komponenten
• Textplanung
– Festlegen der Inhalte, der zu beschreibenden Objekte,
Ereignisse, etc.
– Sequentialisierung der Beschreibung
• Satzgenerierung
– Gliederung der Gesamtinformation in Teile, die
jeweils als ein Satz realisiert werden sollen.
– Wortwahl,Pronominalisierung
– Festlegung stilistischer Parameter (z.B. aktiv-passiv)
• Oberflächenrealisierung bzw. Taktische Generierung
– die Generierung des Satzes nach den vorgegebenen
grammatischen und stilistischen Kriterien.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
38
Volle Generierung:
Realisierung
• Phrasenbasierte Generierung
– Textpläne (etwa auf Basis der Rhetorical Structure
Theory)
– Satzpläne (meist in Form einer Grammatik aus
Phrasenstrukturregeln) werden rekursiv angewendet.
• Merkmalsbasierte Generierung
– produziert Text aufgrund der sequentiellen Festlegung
der Werte von Merkmalen.
– Merkmale hängen teilweise voneinander ab
– Jeder mögliche Satz ist durch eine Menge von
Merkmalen bestimmt.
– Nicht durch den Input bestimmte Merkmale werden per
default festgelegt.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Sprachgenerierung:
Probleme
• Wortwahl
– die Wahl der geeigneten Bezeichner, z.B. Peters Auto,
Peters Sportwagen, sein Automobil, der rote Fiat, der
PKW von Herrn Müller, etc.
• Satzplanung
– Pronominalisierung, Topic (Konstituentenreihenfolge),
Weglassen redundanter Information, RelativsatzHauptsatz, etc.
• Diskursstruktur
– satzübergreifende Planung unter Berücksichtigung von
Köhäsion und Kohärenz, Diskurrelationen,
kommunikativen Zielen, etc.
• Domänenmodellierung
– Generierung benötigt derzeit speziell entwickelte,
sprachspezifische Domänenmodelle
© Harald Trost
VU Multimedia und Sprache
WS2014/15
39
Basismethoden Sprachverarbeitung:
Multilingualität
• Lokalisierung und Internationalisierung
• Sprachenidentifikation ()
• Multilinguale Spracherkennung ()
• Maschinelle Übersetzung
• Multilinguale Generierung
• Multilinguales Authoring
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Multilingualität:
Lokalisierung & Internationalisierung
• Lokalisierung ist die Anpassung eines Systems an die
sprachlichen und kulturellen Gegebenheiten einer
Benutzergruppe.
• Dies umfaßt sprachliche und ikonische Information,
aber auch spezielle Formate für Datum, Währung,
Zahlen, etc.
• Internationalisierung besteht darin, ein System in einer
Art und Weise zu gestalten, daß Lokalisierung effizient
unterstützt wird
– dies umfaßt Trennung textueller Information vom Rest,
Berücksichtigen unterschiedlicher Platzanforderungen,
Vermeiden nicht lokalisierbarer Elemente (Schrift als
Bild), etc.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
40
Multilingualität:
Internationalisierung von HTML 4
• Definition des Character-Set
– Content-type text/html; charset=ISO-8859-1
• Definition der Sprache
– Top-level: Content-language: de
– im Text als Attribut: lang=“de”
• Definition der Scheibrichtung
– als Attribut (Text und/oder Dokument): dir=ltr oder
dir=rtl
• Language Negotiation
– wenn der Server (z.B. Apache) das unterstützt, kann eine
Sprache präferiert werden, falls ein Dokument
mehrsprachig vorhanden ist.
• Viele Details unter: http://babel.alis.com
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Lokalisierung & Internationalisierung
Sprachencodes
• 2-Buchstaben Code (ISO-639-1)
– z.B. de (deutsch), en (englisch), es (spanisch)
• 3-Buchstaben Code (ISO-639-2)
– z.B. bre (bretonisch), eus (baskisch), mas (Masai)
• RFC-3066 (Sprachencodes für das Internet)
– ISO-639-1
– ISO-639-2
– ISO-639-1 plus ISO-3166, z.B. fr-CA (kanadisches
Französisch)
– ISO-639-1 mit Zusatz registriert bei IANA z.B. enspouse (englischer Dialekt namens “spouse”)
– IANA-registrierter Sprachcode, z.B. i-klingon (beginnt
immer mit i-)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
41
Lokalisierung & Internationalisierung
Probleme mit Webseiten
• Text, der nicht als solcher erkennbar ist
– z.B. in Bildern, bzw. als Bild gespeichert
• gesprochene Sprache in Audio und Video
• fremdsprachiger Text, der schlecht codiert ist
– z.B. das griechische Wort χψδωο mit
<font face=“WP Greek Century”> xydwo </font>
– “visuelle” Ordnung bei Arabisch, Hebräisch, etc.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Multilingualität:
Maschinelle Übersetzung
• Die automatische Übersetzung von Texten von einer
Quellsprache in eine Zielsprache.
• Die ersten System wurden in den späten 50er-Jahren
entwickelt.
• Probleme mit der Qualität:
– für eingeschränkte technische Domänen
vertretbare Qualität
– für die Übersetzung allgemeiner Texte nur
bedingt geeignet
• Klassisches Beispiel:
– The spirit is willing but the flesh is weak.
– The vodka is agreeable but the meat is rotten.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
42
Maschinelle Übersetzung:
Übersetzung von Wörtern
• Wortfelder im Englischen und Französischen und ihre
komplexe Überlappung
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Maschinelle Übersetzung:
Ansätze und Methoden
• Interlinguaansatz
– Interlingua erlaubt sprachunabhängige Darstellung der
Bedeutung eines Textes
– Abbildung auf Interlingua und Generierung daraus
• Transferbasierte Übersetzung
– Analyse des Texts aus Quellsprache
– sprachpaarspezifischer Transfer
– Generierung des Texts in Zielsprache
• Beispielbasierte Übersetzung
• Statistische Übersetzung
– basiert auf der Verwendung großer zweisprachiger Korpora
© Harald Trost
VU Multimedia und Sprache
WS2014/15
43
Maschinelle Übersetzung:
Interlinguaansatz
Interlinguaansatz
Quellsprache
Zielsprache
Morphologie
Syntax
Semantik
Pragmatik
Interlingua
© Harald Trost
VU Multimedia und Sprache
WS2013/14
Maschinelle Übersetzung:
Transferansatz
Transferansatz
Quellsprache
Zielsprache
Morphologie
Syntax
Semantik
Pragmatik
Interlingua
© Harald Trost
VU Multimedia und Sprache
WS2013/14
44
Maschinelle Übersetzung:
Beispielbasierte Maschinübersetzung
– Quellsatz: Yesterday, 200 delegates
met with President Clinton.
– Gestern trafen sich
200 Abgeordnete
hinter verschlossenen Türen, um
über die neuen
Steuergesetze zu
verhandeln.
– Gennifer Flowers is – Gennifer Flowers
said to have had an
hat angeblich
affair with President
jahrelang eine
Affäre mit Präsident
Clinton for many
years.
Clinton gehabt.
– Yesterday, 200
delegates met
behind closed
doors to discuss
the new text code.
– Zielsatz: Gestern trafen sich 200
Abgeordnete mit Präsident Clinton.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Multilingualität:
Multilinguale Generierung
• Das parallele Generieren von Texten in mehreren Sprachen.
• Anwendungen:
– als Alternative zu (maschineller) Übersetzung
• Vorteile:
– Konsistenzsicherung
– Texte leicht adaptierbar
– automatisches Alignment der Texte in den
verschiedenen Sprachen
• Probleme:
– Domänenmodellierung darf nicht sprachspezifisch sein.
– Nur für relativ “einfache” Texte machbar (z.B. Manual)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
45
Multilingualität:
Multilinguales Authoring
• Im Gegensatz zur multilingualen Generierung gibt es einen
menschlichenAutor, der die Gestaltung der Texte
kontrolliert.
• Der menschliche Autor muss nicht alle Sprachen
beherrschen.
• Vorteile gegenüber multilingualer Generierung:
– bessere stilistische Qualität
– keine vollständige Domänenmodellierung erforderlich
– auch für komplexere Texte möglich
• Nachteile:
– aufwendiger in Erstellung und Wartung
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Basismethoden Sprachverarbeitung:
Dialogsysteme
• Ermöglichen Interaktion mit einfachen Computersystemen
in gesprochener Sprache
• Anwendungen:
– Information, Auskunft
– Buchung, Bestellung
– Routing
– Call-center
• Probleme:
– Qualität der Spracherkennung
– Dialogmodellierung
– Behandlung von Dialogfehlern (Reparaturdialoge, etc.)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
46
Dialogsysteme:
Komponenten
• Spracherkennung: überträgt die gesprochene Benutzeräußerung in
Text.
• Sprachverarbeitung: extrahiert aus dem erkannten Text seine
situationsspezifische Bedeutung.
• Dialogsteuerung: steuert den Ablauf der Konversation, speichert
History und Kontext, greift auf die Datenbank zu und generiert den
Inhalt von Systemäußerungen.
• Datenbank: speichert die gesamte dem System zur Verfügung
stehende Domäneninformation.
• Sprachgenerierung: formuliert Systemäußerungen sprachlich.
• Sprachsynthese: produziert das Audio-Sprachsignal.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Dialogsysteme:
Architektur
© Harald Trost
VU Multimedia und Sprache
WS2013/14
47
Dialogsysteme:
Dialogablauf
Greeting
Info request
Info request
Info request
Confirmation
End
© Harald Trost
VU Multimedia und Sprache
WS2013/14
Dialogsysteme:
Eingabeaufforderungen
• Die Antwort des Benutzers richtet sich nach der
Formulierung der Aufforderung!
• Formuliere Aufforderungen so, dass der Benutzer die
Information liefert, die erwartet wird.
• Sorgfältiges Design der Aufforderungen ist wesentlich, um
die Initiative im Dialog beim System zu behalten.
• Häufige Aufforderungen sollten kurz sein.
• Ausführlichere Aufforderungen nur für Hilfe, Fehler und
Hinweise einsetzen.
© Harald Trost
VU Multimedia und Sprache
WS2014/15
48
Dialogsysteme:
Grammatik der Benutzeräußerungen
• Üblich ist eine Realisierung der Grammatiken als Menge
endlicher Automaten
• Zustandsübergänge werden durch das Auftauchen von
Schlüsselwörtern signalisiert.
• Jede Grammatik ist ein trade-off zwischen
– großer Vielfalt an akzeptierten Äußerungen, weil sich
Menschen in sehr unterschiedlicher Form äußern;
– geringer Vielfalt um die Qualität der Spracherkennung
nicht zu kompromittieren.
• Essentiell ist die gute Koordination zwischen
Aufforderungen und Grammatiken
© Harald Trost
VU Multimedia und Sprache
WS2014/15
Dialogsysteme:
Dialogmanagement - Beispiel
Dialog1
C: Would you like movie showtime or theater playlist info?
U: Movie showtime.
C: What movie do you want showtime information about?
U: Saving Private Ryan.
C: At what theatre do you want to see Saving Private Ryan.
U: The Paramount Theatre.
C: Saving Private Ryan is not playing at the Paramount Theatre.
Dialog2
C: How may I help you?
U: When is Saving Private Ryan playing?
C: For what theatre?
U: The Paramount Theatre.
C: Saving Private Ryan is not playing at the Paramount Theatre, but it is
playing at the Madison theatre at 3:00, 5:30, 8:00 and 10:30.
© Harald Trost
VU Multimedia und Sprache
WS2013/14
49
Dialogsysteme:
Vergleich der Dialoge
• Dialog1:
• Dialog2:
– Initiative beim System
– implizite Bestätigung
– informiert Benutzer über
Scheitern einer Anfrage
– unnatürlich
– ineffizient
© Harald Trost
– gemischte Initiative
– keine Bestätigung
– schlägt beim Scheitern
einer Anfrage
Alternative vor
– natürlicher
– effizienter
VU Multimedia und Sprache
WS2013/14
Dialogsysteme:
VoiceXML
• Eine Sprache zur Entwicklung von sprachgesteuerten
Benutzerschnittstellen
• basiert auf dem XML Standard
• ermöglicht die einfache Entwicklung von Anwendungen
in den Bereichen:
– Telephonie
– Gerätesteuerung
– Netzanwendungen
• Infos unter: http://www.w3.org/Voice/Guide
© Harald Trost
VU Multimedia und Sprache
WS2014/15
50
VoiceXML:
Sprachumfang
• Sprachausgabe (synthetisierte Sprache)
• Ausgabe von Audio
• Spracherkennung
• DTMF (Tastendruck)
• Sprachaufnahme
• Dialogsteuerung
– Auswahlmenü
– Formular
• Telefon-, bzw. Systemsteuerung
© Harald Trost
VU Multimedia und Sprache
WS2014/15
VoiceXML:
Beispiel (Code)
menu.vxml
1 <?xml version="1.0"?>
2 <vxml version="1.0">
3
4
<menu>
5
<prompt> Choose from <enumerate/></prompt>
6
7
<choice next="sports.vxml"> sports </choice>
8
<choice next="weather.vxml"> weather </choice>
9
<choice next="news.vxml"> news </choice>
10
11
<help>
12
If you would like sports scores, say sports.
13
For local weather reports, say weather, or
14
for the latest news, say news.
15
</help>
16
17
<noinput>You must say something.</noinput>
18
19
<nomatch>Please speak clearly and try again.</nomatch>
20
21
</menu>
22
23 </vxml>
© Harald Trost
VU Multimedia und Sprache
WS2014/15
51
VoiceXML:
Beispiel (Dialog)
Computer: Choose from sports, weather, news.
Human: (user says nothing)
Computer: You must say something. Choose from
sports, weather, news.
Human: Tbilisi
Computer: Please speak clearly and try again. Choose
from sports, weather, news.
Human: Help
Computer: If you would like sports scores, say sports.
For local weather reports, say weather, or for
the latest news, say news.
Human: Sports
Computer: (proceeds to sports.vxml)
© Harald Trost
VU Multimedia und Sprache
WS2014/15
52