pdf-Datei 17/11/2014
Transcrição
pdf-Datei 17/11/2014
Basismethoden der Sprachver- und -bearbeitung • Vorverarbeitung – PoS Tagging, Namenserkennung, Shallow Parsing • Informationsgewinnung – Kategorisierung, Informationsextraktion • Analyse gesprochener Sprache – Spracherkennung, Sprechererkennung • Synthese gesprochener Sprache – Vorlesesysteme • Sprachgenerierung • Multilinguale Aspekte • Dialogsysteme © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Part-of-Speech Tagging • Die Wörter einer Sprache werden nach ihrer Verwendung in Part-of-Speech (PoS) Kategorien eingeteilt. • Hauptkategorien – z.B. Nomen, Verb, Adjektiv, Adverb, Präposition • Hauptkategorien werden oft weiter unterteilt – z.B. Verb als finites Verb, Imperativ, Infinitiv, Partizip – es gibt häufig verwendete Tagsets (meist 30-40 tags) – für das Deutsche das Stuttgart-Tübingen-Tag-Set (STTS), für das Englische das Penn Treebank Tag Set • Wortformen können in mehrere Kategorien fallen – z.B. sieben, achten, meinen, ihr, der, Gründen – im Deutschen sind fast 30% der Wörter im Text ambig © Harald Trost VU Multimedia und Sprache WS2014/15 1 PoS Tagging: Stuttgart-Tübingen Tag Set (STTS) ADJA attr. Adj. ADJD präd. A ADV Adverb APPR Präposition. APPRART Präp. + Art. APPO Postpos. APZR Zirkumpos.re. ART Artikel CARD Zahl FM Fremdspr. ITJ Interjektion KOUI Konj. uo. KOUS Konj. uo. KON Konj. no. KOKOM Konj. vergl. NN Nomen NE Name © Harald Trost PDS Dem.pron. PDAT Dem.pron. PIS Indef.pron PIAT Indef.pron PIDAT Indef.pron PPER Pers.pron PPOSS Poss.pron PPOSAT Poss.pron. PRELS Rel.pron. PRELAT Rel.pron. PRF Pers.pron. PWS Fragepron. PWAT Fragepron. PWAV Fragepron. PAV Pron.adv. PTKZU zu PTKNEG Negation A DJ A A DJ D A DV A PP RA PP O PTKVZ Verbzusatz PTKANTAntwortpart. PTKA Part. bei Adj. TRUNC Komp. VVFIN Verb finit VVIMP Verb Imp. VVINF Verb Infin. VVIZU Verb Infin. VVPP Part. Perf. VAFIN Aux. finit VAIMP Aux. Imp. VAINF Aux Infin. VAPP Aux. Part. VMFIN Mod. finit VMINF Mod. Imp. VMPP Mod. Part. XY Nichtwort WS2013/14 VU Multimedia und Sprache PoS Tagging: Beispiel: Ambiguität des Tags Ich muss PPER VMFIN meinen Freunden PPOSS NN helfen. VVINF Die sieben Personen meinen ihr zu helfen. ART CARD NN VVFIN PPER PTKZU VVINF Das will ich PDS VMFIN PPER © Harald Trost meinen. VVINF VU Multimedia und Sprache WS2014/15 2 PoS Tagging: Part-of-Speech Tagging • Die Zuordnung der korrekten Kategorie zu jedem Wort einer Äußerung ist oft ein wichtiger Vorverarbeitungsschritt. • Unterschiedliche Technologien – n-gramme und Hidden Markov Modelle (HMM) – gelernte Regeln (z.B. Brill-Tagger) • Ergebnis: – Personen machen beim Annotieren etwa 1-2% Fehler – Baseline (nimm für jede Wortform die häufigste Lesart) ergibt im Deutschen eine Fehlerrate von etwa 20% – gute Tagger erzielen eine Fehlerrate von ca. 2-4% © Harald Trost VU Multimedia und Sprache WS2014/15 PoS Tagging: Statistisches Tagging • Die Basis bildet ein (großer) Korpus, der mit korrekten PoS-Tags versehen ist. • Es wird die Auftrittswahrscheinlichkeit jeder Kombination “Wort - PoS-Tag” berechnet. – Z.B. sieben als CARD vs. VVFIN vs. VVINF • Es wird die Auftrittswahrscheinlichkeit aller möglichen ngramme (meist Bigramme oder Trigramme) von PoS-Tags berechnet. • Mithilfe eines Hidden Markov Models (HMM) kann dann für jeden Satz die wahrscheinlichste Zuordnung von PoSTags gefunden werden. © Harald Trost VU Multimedia und Sprache WS2014/15 3 PoS Tagging: Statistisches Tagging - Beispiel Die sieben Personen meinen ihr zu helfen. ART CARD NN PPOSS PPOSS PTKZU VVFIN PDAT VVFIN VVFIN PPER APPR VVINF VVINF VVINF Aanzahl der theoretisch möglichen Lesarten: 2 * 3 * 1 * 3 * 2 * 2 * 2 = 144 © Harald Trost VU Multimedia und Sprache WS2014/15 PoS Tagging: Statistisches Tagging - Wahrscheinlichkeiten • Wortwahrscheinlichkeiten: – Unigramme – geben die Wahrscheinlichkeit wieder, dass ein Wort eine bestimmte Kategorie realisiert. – Pdie/ART, Pdie/PDAT, Psieben/CARD,… • Wahrscheinlichkeiten für Folgen von PoS-Tags – Bigramme (manchmal auch Trigramme) – P0,ART, PART,CARD , PCARD,NN , PNN,PPOS , PPPOS,PPOS ,... • Berechnung der Wahrscheinlichkeit einer bestimmten Folge von PoS Tags für den Satz: – P0,ART* Pdie/ART * PART,CARD * Psieben/CARD * PCARD,NN *… • Die Folge mit der höchsten Wahrscheinlichkeit wird ausgewählt. © Harald Trost VU Multimedia und Sprache WS2014/15 4 Basismethoden Sprachverarbeitung: Parsing • Parsing nennt man die strukturelle (syntaktische) Analyse von Sätzen. • Ergebnis meist als Phrasenstruktur bzw. Dependenzstruktur in Form eines Satzbaums dargestellt: • Auf der strukturellen Ebene sind Sätze fast immer mehrdeutig. © Harald Trost WS2013/14 VU Multimedia und Sprache Flaches und partielles Parsen: Syntaxstruktur und Ambiguität S VP PP NP NP PronI Verb Ich © Harald Trost Art Noun Prep Art PP NP Noun NP Prep Noun sehe den Ma nn mit dem Fernrohr im VU Multimedia und Sprache Park WS2014/15 5 Flaches und partielles Parsen: Syntaxstruktur und Ambiguität S VP NP PP NP PP NP NP PronI Verb Ich NP Art Noun Prep Art Noun NP Prep Noun sehe den Ma nn mit dem Fernrohr im © Harald Trost Park WS2014/15 VU Multimedia und Sprache Flaches und partielles Parsen: Syntaxstruktur und Ambiguität S VP NP PP PP NP NP PronI Verb Ich © Harald Trost Art Noun Prep Art NP Noun NP Prep Noun sehe den Ma nn mit dem Fernrohr im VU Multimedia und Sprache Park WS2014/15 6 Flaches und partielles Parsen: Syntaxstruktur und Ambiguität S VP PP NP PP NP NP PronI Verb Ich © Harald Trost Art Noun Prep Art NP Noun NP Prep Noun sehe den Ma nn mit dem Fernrohr im VU Multimedia und Sprache Park WS2014/15 Flaches und partielles Parsen: Syntaxstruktur und Ambiguität (2) • Beispielsatz: – “Ich sehe den Mann mit dem Fernrohr im Park.” • Analysen: – – – – [VP[Vsehe] [NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]] [VP[Vsehe] [NPden Mann] [PPmit [NP[NPdem Fernrohr] [PPim [NPPark]]]] [VP[Vsehe] [NP[NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]]] [VP[Vsehe] [NP[NPden Mann] [PPmit [NP[NPdem Fernrohr] [PPim [NPPark]]]]]] – [VP[Vsehe] [NP [NP[NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]]] © Harald Trost VU Multimedia und Sprache WS2014/15 7 Basismethoden Sprachverarbeitung: Flaches und Partielles Parsing • Parsing ist die strukturelle (syntaktische) Analyse. • Eine vollständige, korrekte Analyse ist oft nicht machbar: – keine vollständige Grammatik natürlicher Sprache – fehlerhafte Daten – Effizienzprobleme – Ambiguität! • Aus diesen Gründen beschränkt man sich oft auf eine flache und/oder partielle Analyse • Dabei werden nur eindeutig interpretierbare Konstituenten analysiert. – flache Struktur (keine tiefen Anbindungen) – die Analyse kann lückenhaft bleiben © Harald Trost VU Multimedia und Sprache WS2014/15 Flaches und partielles Parsen: Identifizierte Konstituenten • Es werden Konstituenten identifiziert, die eindeutig erkennbar sind. – Kernnominalphrasen - Determiner bis Hauptnomen • z.B. “dieses sehr teure Auto” – Präpositionalphrasen • z.B. “mit 3 Sitzbänken”, “um teures Geld” – Verbkomplex • z.B. “kaufen hat müssen” • Grenzen eindeutig erkennbar • Struktur nicht unbedingt korrekt - Anbindung! • Restliche Wörter im Satz werden ignoriert! © Harald Trost VU Multimedia und Sprache WS2014/15 8 Flaches und partielles Parsen: Flache Analyse: Beispielsatz • • • • • [NPIch] [Vsehe] [NPden Mann] [PPmit [NPdem Fernrohr]] [PPim [NPPark]] © Harald Trost Nominalphrase Verbkomplex Nominalphrase Präpositionalphrase Präpositionalphrase WS2014/15 VU Multimedia und Sprache Flaches und partielles Parsen: re • p+A rt:[ PP P Verarbeitung: Endliche Automaten rt pA Art:Art Pre Q4 p Pre PP Pre p:[ Art:[PPPre Prep+ pA Pr PP ep Q1 Art: [NPArt Q2 Noun:Noun] Pron:[NPPron] Rest:Rest Noun:[NPNoun] Pron:[NPPron] PP NP NP Pron Verb Ich © Harald Trost • • rt Rest:Rest Noun:Noun] :[ ep Art:[NPArt un] Pr Noun:[NPNoun] Q0 :No Pro n:P ron ] un No Q3 Zum flachen Parsen werden oft endliche Automaten (Transducer) eingesetzt: effizient und schnell für das Ableiten nicht ambiger Strukturen ausreichend Art Noun Prep Art PP NP Noun NP Prep Noun sehe den Mann mit dem Fernrohr im VU Multimedia und Sprache Park WS2014/15 9 Flaches und partielles Parsen: Verarbeitung: Endliche Automaten Ich Pron Q0 sehe Verb Q2 [NPIch] den Art Q0 [NPIch] sehe [NPIch] sehe [NPden Mann Noun Q1 mit Prep Q2 [NPIch] sehe [NPden Mann] [NPIch] sehe [NPden Mann] [PPmit dem Art Q3 … [PPmit dem Fernrohr Noun Q4 im Prep Q2 … [PPmit dem Fernrohr] Park Noun Q3 … [PPmit dem Fernrohr] [PPim . Q2 …dem Fernrohr] [PPim Park] [NPIch] sehe [NPden Mann] [PPmit dem Fernrohr] [PPim Park] © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Namenserkennung • Ziel ist die Erkennung von – Personennamen – Firmennamen/Organisationen – Geographischen Namen – Datumsangaben – Prozentangaben – Beträgen • Die Erkennung solcher Bezeichnungen ist ein wesentlicher Vorverarbeitungsschritt. • Methoden basieren auf: – manuell erstellten Regeln – automatischen Lernverfahren © Harald Trost VU Multimedia und Sprache WS2014/15 10 Named Entity Recognition: Definition in MUC-6 • Arten von Named Entities (NE): – ENAMEX (type= person, organisation, location) – TIMEX (type= time, date) – NUMEX (type= money, percent) • Die Verwendung von Gazetteers ist erlaubt. • ENAMEX ist schwieriger, weil mehr vom Kontext abhängig als TIMEX und NUMEX: – Ist Granada eine COMPANY oder eine LOCATION? – Ist Washington eine PERSON oder eine LOCATION? – Ist Arthur Anderson eine PERSON oder eine ORGANISATION? © Harald Trost VU Multimedia und Sprache WS2014/15 Namenserkennung: Beispiel von MUC-7 <ENAMEX TYPE=“LOCATION”>Italy</ENAMEX>’s business world was rocked by the announcement <TIMEX TYPE=“DATE”>last Thursday </TIMEX> that Mr. <ENAMEX TYPE=“PERSON”>Verdi </ENAMEX> would leave his job as vice-president of <ENAMEX TYPE=“ORGANISATION”>Music Masters of Milan, Inc</ENAMEX> to become operations director of <ENAMEX TYPE=“ORGANISATION”> Arthur Anderson</ENAMEX>. • Beachte: • “Milan” ist Teil des Namens einer Organisation • “Arthur Anderson” ist eine Organisation © Harald Trost VU Multimedia und Sprache WS2014/15 11 Namenserkennung: Namenslexikon (Gazetteer) • Namen werden in Lexikon eingetragen: – Georg, Wien, San Salvador, Donau, IBM, Goethe, etc. • Probleme: – es gibt zu viele Namen – ständiger Wechsel – erscheinen in unterschiedlichen Formen • USA, U.S.A., US – bei Mehrfachauftreten Verkürzungen: • Die Erste Bank AG, Die Erste – Identifizierung ist kontextabhängig: • Herr Schüssel; Lebenshilfe, ein Verein für… • Daher: zusätzliche Methoden nötig. © Harald Trost VU Multimedia und Sprache WS2014/15 Namenserkennung: Verfügbare Information • History (ableitbar aus Korpus) – Textfenster um Wort wi, z.B. wi-3,…wi+3 – Merkmale des Wortes wi • vierstelligeZahl = Jahreszahl (z.B. 2003) • andereZahl = Zahl (z.B. 63121) • enthältKomma = Betrag (z.B. 3,14) • nurGrossbuchstaben = Organisation (z.B. UNO) • GrossbuchstabePunkt = Vorname (z.B. H.) – PoS-Tag, komplexe Merkmale • Binäre Merkmale, die aus Korpus ableitbar sind • Spezielle Namensklassen – z.B. Titel, Vorname, Organisationstyp © Harald Trost VU Multimedia und Sprache WS2014/15 12 Namenserkennung: Regelbasierte Methode • Namenslexikon als Basis • Verwendung kontextsensitiver Regeln – meist reguläre Ausdrücke – verwenden spezifische Wortklassen – verwenden spezielle Stringeigenschaften der Wörter • Beispiele – <Titel> <NE> <NN> <Titel> <Vorname> <Person> • z.B. “Herr Alfons Berg” – <NN> , <Art> <Organisationstyp> für • z.B. “Lebenshilfe, ein Verein für…” © Harald Trost VU Multimedia und Sprache WS2014/15 Namenserkennung: Statistische Methoden • Typische Methode beruht auf Sequence Labeling – 3 Labels: B(egin), I(nside), O(utside) – Indiziert für die gesuchten Namensklassen. • Bei Supervised Learning wird ein Korpus entsprechend annotiert. – Gleichzeitig werden die – beim regelbasierten Ansatz besprochenen – Merkmale extrahiert. – Spezielle Wortklassen und Gazetteers können ebenfalls zur Annotation verwendet werden. • Auf der Grundlage dieses annotierten Korpus kann dann z.B. ein HMM trainiert werden. © Harald Trost VU Multimedia und Sprache WS2014/15 13 Namenserkennung: Hybride Ansätze • Kombinieren regelbasierte und statistische Methoden; z.B. Kaskadierte Namenserkennung (Mikheev et al. 1998) – Kaskadiertes Sytem, das regelbasierte Schritte mit „probabilistic partial matching“ kombiniert – Verwende maschinell gelernte Information um den Typ eines Namens festzulegen – Verwende die interne Struktur von Namen zur Entscheidungsfindung – Triff zuerst Entscheidungen hoher Präzision (sure fire rules) – Triff Entscheidungen, die unsicher sind erst nachdem die gesamte Evidenz vorliegt. – Annahme: Jeder Name kann pro Diskurs (Artikel) genau einem Typ zugeordnet werden. © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Informationsextraktion (IE) • Das gezielte Suchen nach spezifischer Information aus großen Mengen von frei formulierten Texten • Eingabe: – Die gesuchte Information wird in Form einer Schablone (template) dargestellt. • Ausgabe: – Zu jedem gefundenen relevanten Text wird eine instantiierte Schablone geliefert. • Anwendungsbereich: – Texte mit faktischer Information – Keine Spezialkenntnisse für Verstehen nötig © Harald Trost VU Multimedia und Sprache WS2014/15 14 Basismethoden Sprachverarbeitung: Beispiel für Schablone Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Anneliese Häfner folgt Christian Meindl nach. © Harald Trost • Schablone: [PersonOut PersonIn Position Organisation Time] • Ergebnis1: [PersonOut PersonIn Position Organisation Time ] • Ergebnis2: [PersonOut PersonIn Position Organisation Time ] VU Multimedia und Sprache Dr.Hermann Wirth Sabine Klinger Leiter MHS München heute Christian Meindl Anneliese Häfner Musikdirektor MHS München WS2013/14 Informationsextraktion: Komponenten • Tokenizer – Normalisiert Text durch Entfernen von überflüssigen Sonderzeichen und Leerzeichen, Expansion von Abkürzungen, Interpretation fixer Formate, etc. • Lexikalische Analyse – PoS, Flexionsform, Komposita, Hyphenkoordination • Namenserkennung • Parsing • Koreferenzauflösung • Extraktion domänenspezifischer Information • Unifikation von Schablonen © Harald Trost VU Multimedia und Sprache WS2014/15 15 Informationsextraktion: Parsing • Chunk parsing = kaskadierter Ansatz – iterative Anwendung eines flachen und partiellen Parsers – im ersten Durchlauf werden einfache, nichtrekursive Phrasen identifiziert (NP, PP, VC). – In weiteren Durchgängen werden diese zu komplexeren Einheiten kombiniert • z.B. Koordination (und, oder), Anbindung • Verwendung domänenspezifischen Wissens – unter Umständen auch Identifikation funktionaler Einheiten • Subjekt, Objekt, etc. © Harald Trost VU Multimedia und Sprache WS2014/15 Informationsextraktion: Koreferenzauflösung - Problem • Entitäten können im Text in unterschiedlicher Form referenziert werden. – Eigennamen • Bill Gates, William Gates, Herr Gates, etc. – Definite Nominalphrasen • der Präsident von Microsoft, der Erfinder von Windows, der reichste Mann der Welt, etc. – Pronomina • er, sie, es, etc. • Zeitliche Referenzen – heute, letzte Woche, vor 3 Jahren, etc. © Harald Trost VU Multimedia und Sprache WS2014/15 16 Informationsextraktion: Koreferenzauflösung - Methode • Markiere jeden Referenzausdruck (meist Nominalphrase) mit – Typinformation • belebt/unbelebt, Organisation, Ort, etc. – Syntaktischer Information • Numerus (Singular, Plural) • Genus (feminin, maskulin, neutrum) • Weitere Merkmale – Name, Pronomen, definit/indefinit, etc. – Weiterer domänspezifische Information © Harald Trost VU Multimedia und Sprache WS2014/15 Informationsextraktion: Koreferenzauflösung - Methode (2) • Bestimme mögliche Antezedenten im Text • Der Bereich ergibt sich aus der Art des Ausdrucks – Eigennamen: der ganze vorhergehende Text – Nominalphrasen: Teil des vorhergehenden Texts (experimentell zu bestimmen) – Pronomina: einige vorhergehende Sätze (Paragraph) • Überprüfe Konsistenz – syntaktische Konsistenz (Numerus, Genus) – semantische Konsistenz (Typinformation) • aus manuell erstellter Typhierarchie • aus vorhandener Ontologie • Wähle aus Kandidaten heuristisch aus – Nähe, links-rechts, Subjekt-Objekt, etc. © Harald Trost VU Multimedia und Sprache WS2014/15 17 Informationsextraktion: Extraktion domänenspezifischer Information • “Molekularer” Ansatz – basiert auf Regeln (Mustern), die den (syntaktischen und semantischen) Kontext berücksichtigen; – beginne mit sehr verlässlichen Mustern, erweitere nach Bedarf; – Muster können hierarchisch definiert werden. • “Atomarer” Ansatz – basiert auf Interpretation der Typinformation von Nominal- und Verbphrasen ohne Berücksichtigung des Kontexts; – jedes Auftreten einer Nomen/Verb-Kombination mit den entsprechenden Eigenschaften bewirkt die Merkmalsinstantiierung in der Schablone. © Harald Trost VU Multimedia und Sprache WS2014/15 Informationsextraktion: Unifikation von Schablonen • Schablonen werden satzweise mit Information gefüllt. • Dadurch kann wesentliche Information auf mehrere Schablonen verteilt sein. • Um möglichst vollständige Information zu erhalten, müssen Schablonen unifiziert werden. – Sorteninformation untersuchen auf • Inkonsistenz, Koreferenz, Subsumption – Anwenden weiterer Heuristiken • implizite Beziehungen • Externe Wissensbasen (z.B. WordNet) © Harald Trost VU Multimedia und Sprache WS2014/15 18 Informationsextraktion: Unifikation von Schablonen (2) Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. • • Als seine Nachfolgerin wurde Sabine Klinger benannt. • • Ergebnis: • • © Harald Trost [PersonOut PersonIn Position Organisation Time [PersonOut PersonIn Position Organisation Time [PersonOut PersonIn Position Organisation Time VU Multimedia und Sprache Dr.Hermann Wirth Leiter MHS München heute ] Dr.Hermann Wirth Sabine Klinger ] Dr.Hermann Wirth Sabine Klinger Leiter MHS München heute ] WS2014/15 Informationsextraktion: Evaluation • Präzision (precision) – der Anteil der richtigen an den insgesamt gefundenen Texten • Vollständigkeit (recall) – der Anteil der gefundenen von den insgesamt vorhandenen Texten • F-Maß ( β 1) * P *V F * P V – üblicherweise =1 • Diese Maße stammen aus dem Information Retrieval. Die Güte der Antwort wird nicht berücksichtigt. © Harald Trost VU Multimedia und Sprache WS2014/15 19 Basismethoden Sprachverarbeitung: Analyse gesprochener Sprache • Spracherkennung – das automatische Übertragen gesprochener Sprache in Text. • Sprechererkennung – Sprecheridentifikation: identifiziert den jeweiligen Sprecher – Sprecherverifikation: überprüft, ob die Stimme einem vorgegebenen Sprecher entspricht. • Sprachenerkennung (Sprachenidentifikation) – die Identifikation der Sprache, in der gesprochen wird. – auch für geschriebene Sprache (Texte) relevant! © Harald Trost VU Multimedia und Sprache WS2014/15 Analyse gesprochener Sprache: Spracherkennung • Parameter, die die Komplexität der Aufgabe und die Qualität der Erkennungsleistung beeinflussen – kontinuierlich vs. diskontinuierlich • bei einfachen Systemen müssen zwischen den Wörtern deutliche Pausen gemacht werden. – Einzelsprecher vs. sprecherunabhängig • Systeme können an einen Sprecher trainiert werden, um die Qualität zu erhöhen – beliebiges (großes) vs. spezielles (kleines) Vokabular • ein begrenztes Vokabular erhöht die Qualität der Erkennung – Aufnahmequalität • limitierte Bandbreite (Telefon), Nebengeräusche © Harald Trost VU Multimedia und Sprache WS2014/15 20 Spracherkennung: Problematik • Phonetische Variabilität – Koartikulation, Assimilation, etc. • akustische Variabilität – Kanal, Nebengeräusche, Entfernung, Position, etc. • Sprechervariabilität intern – Stimmqualität, Sprechrate, Emotion, etc. • Sprechervariabilität extern – Geschlecht, Alter, Dialekt, etc. • Menschen verarbeiten Sprache kontextabhängig – [ɑɪskrˈɪːm] I scream vs. Ice cream © Harald Trost VU Multimedia und Sprache WS2014/15 Spracherkennung: Problematik (2) [ˈhast] [ˈdu:] [ˈ?aɪnɘn] [moˈmɛnt] [ˈtsaɪt] [ˈhas d̥ʊ aɪnɘn moˈmɛn ˈtsaɪt] [ˈhas d̥ʊ aɪn moˈmɛn ˈtsaɪt] [ˈhɔs d̥ʊ n moˈmɛn ˈtsaɪt] [ˈhɔs d̥ʊ n moˈmɛn ˈtsaɪt] [ˈhɔs d̥ʊ m moˈmɛn ˈtsaɪt] © Harald Trost VU Multimedia und Sprache Standard spontan WS2014/15 21 Spracherkennung: Architektur • • • • Die Vorverarbeitung konvertiert das Sprachsignal in eine Folge von Merkmalsvektoren in Intervallen von eta 10ms. Das akustische Modell berechnet die Wahrscheinlichkeit, dass eine Folge von Vektoren einem Wort entspricht. Das Language Model berechnet die Wahrscheinlichkeit einer Folge von Wörtern Der Hypothesengenerator testet alle Möglichkeiten und wählt die mit dem höchsten Score aus © Harald Trost VU Multimedia und Sprache WS2013/14 Spracherkennung: Komponenten • Diskretisierung – Abtastung, Quantisierung • Sprachsignalkurzzeitanalyse – Fensterfunktion, Merkmalsextraktion • Vektorquantisierung – Abbildung auf digitale Merkmale • (lautliches) Wortmodell • (grammatisches) Sprachmodell © Harald Trost VU Multimedia und Sprache WS2014/15 22 Spracherkennung: Sprachsignalkurzzeitanalyse • Signal ist nur über kurze Intervalle (quasi-)stationär (5-30 ms) • Fensterfunktion – Rechteckfenster, Hammingfenster, etc. • Extrahierte Merkmale: – Kurzzeitenergie, Spektrum, Cepstrum, Lineare Vorhersage © Harald Trost VU Multimedia und Sprache WS2014/15 Spracherkennung: Vektorquantisierung • Die Abbildung des kontinuierlichen Signals auf digitale Merkmale – Datenreduktion – Klassifizierung – Abstandsbestimmung © Harald Trost VU Multimedia und Sprache WS2014/15 23 Spracherkennung: Wortmodell • Jedes Phonem in einem Wort entspricht einer Menge von Modellzuständen (typischerweise 3 – initial, mittig und final). • Wenn ein Sprecher ein Wort spricht, bleibt er mit einem oder mehreren Frames in einem Modellzustand und wechselt dann in den nächsten. – abhängig von Sprechgeschwindigkeit – unterschiedliche Laute haben unterschiedliche Dauer © Harald Trost VU Multimedia und Sprache WS2013/14 Spracherkennung: Wortmodell (2) • Analyse mithilfe von HMMs in zwei Ebenen: • Phonemanalyse: – Phoneme werden als Menge von Allophonen aufgefaßt. – Für jedes Allophon wird ein eigenes HMM trainiert. • Wortanalyse: – Einzelne Wörter werden als Netzwerke von Phonemen dargestellt. – Jeder gültige Pfad durch das Netzwerk entspricht einer Aussprachevariante. © Harald Trost VU Multimedia und Sprache WS2014/15 24 Spracherkennung: Wortmodell (3) • Auf diese Weise wird die gesamte Äußerung analysiert. – Problem: Wortgrenzen nicht markiert • Als Ergebnis entstehen verschiedene Interpretationen unterschiedlicher Plausibilität. • Sie werden dargestellt als – n-best Wortsequenzen – Netzwerk mit Übergangswahrscheinlichkeiten © Harald Trost VU Multimedia und Sprache WS2014/15 Spracherkennung: Sprachmodell • Korrekte Worterkennung basiert nicht alleine auf akustisch/phonetischer Analyse, sondern auch auf dem Kontext. • Das Wortmodell liefert unterschiedliche Varianten von Wortfolgen. • Spracherkenner verwenden ein (statistisches) Sprachmodell, das aus einem großen (hunderte Millionen Wörter) Korpus abgeleitet wird. • Die Vorgangsweise basiert (ähnlich dem statistischen PoSTagging) auf der Identifikation der plausibelsten Wortfolge durch ein HMM. © Harald Trost VU Multimedia und Sprache WS2014/15 25 Spracherkennung: Multilinguale Spracherkennung • • • • Verwende internationalen Phonemvorrat bilde sprachspezifische Wortmodelle darauf ab. Problem: Phoneme unterschiedlich realisiert! Lösung: Beginne mit sprachspezifischen Realisierungen, z.B. /ajapan/, /akorean/, /aspan/, etc. Von links nach rechts: einsprachig, tagged (7500 models) tagged (3000 models) ohne Tags © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Sprechererkennung • Das System vergleicht den Sprecher mit vorhandenen Sprechproben. • Methode: Merkmalsvektoren der Beispiele werden mit aktueller Probe verglichen. • Zwei Ansätze: – textabhängig: der Sprecher muß eine bestimmte Wortfolge (wie beim Training) äußern. – Textunabhängig: der Sprecher kann beliebige Äußerungen machen • Zwei Applikationen: – Sprecheridentifikation – Sprecherverifikation © Harald Trost VU Multimedia und Sprache WS2014/15 26 Sprechererkennung: Sprecheridentifikation • Sprecheridentifikation identifiziert den Sprecher als bestimmtes Mitglied einer vorgegebenen Gruppe: © Harald Trost VU Multimedia und Sprache WS2014/15 Sprechererkennung: Sprecherverifikation • Sprecherverifikation überprüft, ob die angegebene Identifikation des Sprechers korrekt ist. © Harald Trost VU Multimedia und Sprache WS2014/15 27 Basismethoden Sprachverarbeitung: Sprachenidentifikation • Phonembasiert – Phonemerkenner erzeugt Folge von Phonemen – Berechne Verteilung der Phoneme – Vergleiche mit für einzelne Sprachen typischen Verteileilungen • Verwendung phonotaktischen Wissens – Silbenerkenner erzeugt Folge von Silben – Kombiniere HMMs, die phonotaktische Eigenschaften der einzelnen Sprachen codieren zu einem “Einzelworterkenner” • Spracherkenner mit großem Vokabular – Analysiere mit Spracherkennern für die verschiedenen Sprachen und vergleiche Ergebniswahrscheinlichkeiten. © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Synthese gesprochener Sprache • Reproduktive Systeme – zusammenhängende Äußerungen bzw. Teile von Äußerungen werden aufgenommen – ursprüngliche Stimme erkennbar – Vorteil: hohe Sprachqualität – Nachteil: wenig flexibel, hoher Aufwand • Vollsynthese – Äußerungen werden ohne direkt auf Aufnahmen zurückzugreifen synthetisiert – keine spezielle Stimme erkennbar – Vorteil: flexibel, geringer Aufwand – Nachteil: schlechtere Sprachqualität © Harald Trost VU Multimedia und Sprache WS2014/15 28 Synthese gesprochener Sprache: Historische Beispiele • VODER (Homer Dudley, 1939) • OVE (Gunnar Fant, 1953) • DECtalk (1973) • Artikulatorisches System (Bernd Kröger) • “Bonus track” © Harald Trost VU Multimedia und Sprache WS2014/15 Synthese gesprochener Sprache: Vollsynthese: Methoden • Konkatenative Synthese – aufgenommenes Sprachmaterial wird in kleinsten Einheiten abgespeichert – die Einheiten werden nach Bedarf rekomponiert • Unit Selection • Formantsynthese – verwendet ein akustisches Modell (Quelle-Filter-Modell) • artikulatorische Synthese – verwendet ein (mathematisches) Modell des menschlichen Sprechapparats – Äußerungen entstehen durch “Imitation” des Sprechvorgangs © Harald Trost VU Multimedia und Sprache WS2014/15 29 Synthese gesprochener Sprache: Artikulatorische Synthese • Simuliert die (physiologischen Parameter der) Sprachproduktion • Komponenten – Glottismodell generiert Anregungssignal – dynamisches Vokaltraktmodell – simulierte Artikulatorbewegungen – akustisches Modell der Resonanzen und Bandbreiten • Problem: existierende Daten über reale Artikulationsabläufe sind unzureichend • Attraktiv für Grundlagenforschung, derzeit ist die für Anwendungen erzielbare Qualität zu schlecht. © Harald Trost VU Multimedia und Sprache WS2014/15 Artikulatorische Synthese: Vokaltraktmodell © Harald Trost VU Multimedia und Sprache WS2013/14 30 Artikulatorische Synthese: Parameter Symbol VA LP LA TH TP TTH TTP GA CT PR © Harald Trost Name Velumsöffnung Lippenstülpung Lippenöffnung Zungenhöhe Zungenposititon Zungenspitzenhöhe Zungenspitzenposition Glottisöffnung Stimmlippenspannung Lungendruck Wertebereich [-100, 100] [0, 100] [0, 100] [-100, 100] [-100, 100] [0, 100] [-200, 100] [-400, 600] [0, 200] [0, 200] VU Multimedia und Sprache WS2013/14 Artikulatorische Synthese: Gestische Partitur © Harald Trost VU Multimedia und Sprache WS2014/15 31 Artikulatorische Synthese: Beispiel • Beispielsatz: “Das ist mein Haus.” © Harald Trost VU Multimedia und Sprache WS2014/15 Synthese gesprochener Sprache: Formantsynthese • Akustisches Sprachmodell • Basiert auf dem Quelle-Filter-Modell • Vorteile: – einfache Beeinflussung aller prosodischen Parameter – beliebige Stimmen erzeugbar • Nachteile: – gute Qualität kann nur durch optimale Setzung der Parameter erreicht werden, was extrem aufwändig ist. • Beispiel: das von Klatt entwickelte MITtalk © Harald Trost VU Multimedia und Sprache WS2014/15 32 Synthese gesprochener Sprache: Formantsynthese (2) © Harald Trost VU Multimedia und Sprache WS2014/15 Synthese gesprochener Sprache: Formantsynthese (3) © Harald Trost VU Multimedia und Sprache WS2014/15 33 Synthese gesprochener Sprache: Konkatenative Synthese • Die Synthese greift auf ein Inventar aufgenommener Sprache eines realen Sprechers zurück. • Die Länge der aufgenommenen Einheiten ist je nach Methode unterschiedlich. • Die aufgenommenen Stücke werden bei der Synthese rekombiniert. • Probleme: – Die Stücke müssen zusammenpassen (Energie, f0) – Die Stücke müssen an gewünschte Prosodie angepasst werden (f0, Dauer) – Die Stimmqualität ist durch den Sprecher festgelegt. © Harald Trost VU Multimedia und Sprache WS2014/15 Konkatenative Synthese: Einheiten für Inventare • Allophone (ca. 50) - ungebräuchlich • Diphone (einige hundert) – von der “Mitte” eines Phons bis zur “Mitte” des nächsten • Triphone • Halbsilben (1000 - 2000) • Gemischte Inventare – z.B. Halbsilben, Diphone und Suffixe • “Unit Selection” – dynamische Auswahl zur Laufzeit aus einem großen, entsprechend annotierten Korpus © Harald Trost VU Multimedia und Sprache WS2014/15 34 Konkatenative Synthese: Unit Selection • großer Corpus (mehrere Stunden) von einem Sprecher • Annotation: – nach Phonen, Silben, Morphemen, Wörtern – meist durch „forced alignment“ eines Spracherkenners – f0, Dauer und weitere akustische Parameter • Synthese: – für die benötigte Äußerung wird dynamisch die beste Kette verfügbarer „Units“ generiert. – meist mit Hilfe eines Entscheidungsbaums • keine Anpassung der „Units“ erforderlich, dadurch relativ natürliche Stimme © Harald Trost VU Multimedia und Sprache WS2014/15 Synthese gesprochener Sprache: HMM-basierte Synthese • Variante der Formantsynthese • Parameter werden statistisch – durch Hidden Marcov Model – berechnet • Dadurch wird das extrem aufwändige manuelle Tuning der Parameter automatisiert. Die Parameter werden aus einem Sprachkorpus gelernt. • Die grundsätzlichen Vorteile der Formant-Synthese gegenüber konkatenativen Verfahren kommen bei vergleichbarer Sprachqualität zum Tragen: – Vollsynthese – keine Sprecher nötig – Beliebig viele Stimmen – Beliebige Varianten einer Stimme (Sprechstile, Emotion, etc.) © Harald Trost VU Multimedia und Sprache WS2014/15 35 Synthese gesprochener Sprache: Vorlesesysteme (Text-to-speech) • Dienen dem Vorlesen elektronisch gespeicherter Texte • Komponenten: – Vorverarbeitung • Tokenization • Analyse zur Bestimmung phonologischer Phrasen • Abbildung von Schrift auf Lautdarstellung • Bestimmung der prosodischen Parameter (f0, Dauer) – Sprachsynthese © Harald Trost VU Multimedia und Sprache WS2014/15 Vorlesesysteme: Abbildung Schrift - Laute • Lexikonbasiert • für nicht im Lexikon enthaltene Ausdrücke (z.B. Namen) muss es ein automatisches Abbildungsverfahren geben (letter-to-sound-rules). • Probleme: – fremdsprachige Ausdrücke – Akronyme (NATO vs. SPÖ) – Segmentierung (Häschen) – Akzent (‘durchschauen vs. durch’schauen) © Harald Trost VU Multimedia und Sprache WS2014/15 36 Vorlesesysteme: Bestimmung prosodischer Parameter • Festlegung von – Sprachgrundfrequenz – Dauer einzelner Laute oder Silben – Intensität • Zwei Methoden: – Lernen aus Korpus • Neuronale Netze • Maschinlernverfahren – regelbasiert auf der Basis von Beschreibungsmodellen © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Sprachgenerierung • Der Prozess der Generierung von Text (oder gesprochenen Äußerungen), um bestimmte Sachverhalte, Informationen, etc. auszudrücken • Methoden – Canned Text – Schablonen – volle Generierung © Harald Trost VU Multimedia und Sprache WS2014/15 37 Sprachgenerierung: Methoden • Canned Text – verwendet vorgefertigte Phrasen und Texte. • Pro: einfach und robust, jeder Stil möglich • Con: unflexibel, nur für einfache Anwendungen • Generierung mit Schablonen – verwendet vorgefertigte Bausteine, die aber Stellen beinhalten, an denen spezifisches Material eingefügt werden kann. • Pro: ebenfalls einfach und robust, dabei flexibler • Con: ebenfalls nur für restringierte Anwendungen • Volle Generierung – produzierte weitgehend beliebigen Text, der durch eine entsprechende Eingabestruktur spezifiziert wird. • Pro: flexibel, auch für komplexe Anwendungen • Con: aufwändig © Harald Trost VU Multimedia und Sprache WS2014/15 Volle Generierung: Komponenten • Textplanung – Festlegen der Inhalte, der zu beschreibenden Objekte, Ereignisse, etc. – Sequentialisierung der Beschreibung • Satzgenerierung – Gliederung der Gesamtinformation in Teile, die jeweils als ein Satz realisiert werden sollen. – Wortwahl,Pronominalisierung – Festlegung stilistischer Parameter (z.B. aktiv-passiv) • Oberflächenrealisierung bzw. Taktische Generierung – die Generierung des Satzes nach den vorgegebenen grammatischen und stilistischen Kriterien. © Harald Trost VU Multimedia und Sprache WS2014/15 38 Volle Generierung: Realisierung • Phrasenbasierte Generierung – Textpläne (etwa auf Basis der Rhetorical Structure Theory) – Satzpläne (meist in Form einer Grammatik aus Phrasenstrukturregeln) werden rekursiv angewendet. • Merkmalsbasierte Generierung – produziert Text aufgrund der sequentiellen Festlegung der Werte von Merkmalen. – Merkmale hängen teilweise voneinander ab – Jeder mögliche Satz ist durch eine Menge von Merkmalen bestimmt. – Nicht durch den Input bestimmte Merkmale werden per default festgelegt. © Harald Trost VU Multimedia und Sprache WS2014/15 Sprachgenerierung: Probleme • Wortwahl – die Wahl der geeigneten Bezeichner, z.B. Peters Auto, Peters Sportwagen, sein Automobil, der rote Fiat, der PKW von Herrn Müller, etc. • Satzplanung – Pronominalisierung, Topic (Konstituentenreihenfolge), Weglassen redundanter Information, RelativsatzHauptsatz, etc. • Diskursstruktur – satzübergreifende Planung unter Berücksichtigung von Köhäsion und Kohärenz, Diskurrelationen, kommunikativen Zielen, etc. • Domänenmodellierung – Generierung benötigt derzeit speziell entwickelte, sprachspezifische Domänenmodelle © Harald Trost VU Multimedia und Sprache WS2014/15 39 Basismethoden Sprachverarbeitung: Multilingualität • Lokalisierung und Internationalisierung • Sprachenidentifikation () • Multilinguale Spracherkennung () • Maschinelle Übersetzung • Multilinguale Generierung • Multilinguales Authoring © Harald Trost VU Multimedia und Sprache WS2014/15 Multilingualität: Lokalisierung & Internationalisierung • Lokalisierung ist die Anpassung eines Systems an die sprachlichen und kulturellen Gegebenheiten einer Benutzergruppe. • Dies umfaßt sprachliche und ikonische Information, aber auch spezielle Formate für Datum, Währung, Zahlen, etc. • Internationalisierung besteht darin, ein System in einer Art und Weise zu gestalten, daß Lokalisierung effizient unterstützt wird – dies umfaßt Trennung textueller Information vom Rest, Berücksichtigen unterschiedlicher Platzanforderungen, Vermeiden nicht lokalisierbarer Elemente (Schrift als Bild), etc. © Harald Trost VU Multimedia und Sprache WS2014/15 40 Multilingualität: Internationalisierung von HTML 4 • Definition des Character-Set – Content-type text/html; charset=ISO-8859-1 • Definition der Sprache – Top-level: Content-language: de – im Text als Attribut: lang=“de” • Definition der Scheibrichtung – als Attribut (Text und/oder Dokument): dir=ltr oder dir=rtl • Language Negotiation – wenn der Server (z.B. Apache) das unterstützt, kann eine Sprache präferiert werden, falls ein Dokument mehrsprachig vorhanden ist. • Viele Details unter: http://babel.alis.com © Harald Trost VU Multimedia und Sprache WS2014/15 Lokalisierung & Internationalisierung Sprachencodes • 2-Buchstaben Code (ISO-639-1) – z.B. de (deutsch), en (englisch), es (spanisch) • 3-Buchstaben Code (ISO-639-2) – z.B. bre (bretonisch), eus (baskisch), mas (Masai) • RFC-3066 (Sprachencodes für das Internet) – ISO-639-1 – ISO-639-2 – ISO-639-1 plus ISO-3166, z.B. fr-CA (kanadisches Französisch) – ISO-639-1 mit Zusatz registriert bei IANA z.B. enspouse (englischer Dialekt namens “spouse”) – IANA-registrierter Sprachcode, z.B. i-klingon (beginnt immer mit i-) © Harald Trost VU Multimedia und Sprache WS2014/15 41 Lokalisierung & Internationalisierung Probleme mit Webseiten • Text, der nicht als solcher erkennbar ist – z.B. in Bildern, bzw. als Bild gespeichert • gesprochene Sprache in Audio und Video • fremdsprachiger Text, der schlecht codiert ist – z.B. das griechische Wort χψδωο mit <font face=“WP Greek Century”> xydwo </font> – “visuelle” Ordnung bei Arabisch, Hebräisch, etc. © Harald Trost VU Multimedia und Sprache WS2014/15 Multilingualität: Maschinelle Übersetzung • Die automatische Übersetzung von Texten von einer Quellsprache in eine Zielsprache. • Die ersten System wurden in den späten 50er-Jahren entwickelt. • Probleme mit der Qualität: – für eingeschränkte technische Domänen vertretbare Qualität – für die Übersetzung allgemeiner Texte nur bedingt geeignet • Klassisches Beispiel: – The spirit is willing but the flesh is weak. – The vodka is agreeable but the meat is rotten. © Harald Trost VU Multimedia und Sprache WS2014/15 42 Maschinelle Übersetzung: Übersetzung von Wörtern • Wortfelder im Englischen und Französischen und ihre komplexe Überlappung © Harald Trost VU Multimedia und Sprache WS2014/15 Maschinelle Übersetzung: Ansätze und Methoden • Interlinguaansatz – Interlingua erlaubt sprachunabhängige Darstellung der Bedeutung eines Textes – Abbildung auf Interlingua und Generierung daraus • Transferbasierte Übersetzung – Analyse des Texts aus Quellsprache – sprachpaarspezifischer Transfer – Generierung des Texts in Zielsprache • Beispielbasierte Übersetzung • Statistische Übersetzung – basiert auf der Verwendung großer zweisprachiger Korpora © Harald Trost VU Multimedia und Sprache WS2014/15 43 Maschinelle Übersetzung: Interlinguaansatz Interlinguaansatz Quellsprache Zielsprache Morphologie Syntax Semantik Pragmatik Interlingua © Harald Trost VU Multimedia und Sprache WS2013/14 Maschinelle Übersetzung: Transferansatz Transferansatz Quellsprache Zielsprache Morphologie Syntax Semantik Pragmatik Interlingua © Harald Trost VU Multimedia und Sprache WS2013/14 44 Maschinelle Übersetzung: Beispielbasierte Maschinübersetzung – Quellsatz: Yesterday, 200 delegates met with President Clinton. – Gestern trafen sich 200 Abgeordnete hinter verschlossenen Türen, um über die neuen Steuergesetze zu verhandeln. – Gennifer Flowers is – Gennifer Flowers said to have had an hat angeblich affair with President jahrelang eine Affäre mit Präsident Clinton for many years. Clinton gehabt. – Yesterday, 200 delegates met behind closed doors to discuss the new text code. – Zielsatz: Gestern trafen sich 200 Abgeordnete mit Präsident Clinton. © Harald Trost VU Multimedia und Sprache WS2014/15 Multilingualität: Multilinguale Generierung • Das parallele Generieren von Texten in mehreren Sprachen. • Anwendungen: – als Alternative zu (maschineller) Übersetzung • Vorteile: – Konsistenzsicherung – Texte leicht adaptierbar – automatisches Alignment der Texte in den verschiedenen Sprachen • Probleme: – Domänenmodellierung darf nicht sprachspezifisch sein. – Nur für relativ “einfache” Texte machbar (z.B. Manual) © Harald Trost VU Multimedia und Sprache WS2014/15 45 Multilingualität: Multilinguales Authoring • Im Gegensatz zur multilingualen Generierung gibt es einen menschlichenAutor, der die Gestaltung der Texte kontrolliert. • Der menschliche Autor muss nicht alle Sprachen beherrschen. • Vorteile gegenüber multilingualer Generierung: – bessere stilistische Qualität – keine vollständige Domänenmodellierung erforderlich – auch für komplexere Texte möglich • Nachteile: – aufwendiger in Erstellung und Wartung © Harald Trost VU Multimedia und Sprache WS2014/15 Basismethoden Sprachverarbeitung: Dialogsysteme • Ermöglichen Interaktion mit einfachen Computersystemen in gesprochener Sprache • Anwendungen: – Information, Auskunft – Buchung, Bestellung – Routing – Call-center • Probleme: – Qualität der Spracherkennung – Dialogmodellierung – Behandlung von Dialogfehlern (Reparaturdialoge, etc.) © Harald Trost VU Multimedia und Sprache WS2014/15 46 Dialogsysteme: Komponenten • Spracherkennung: überträgt die gesprochene Benutzeräußerung in Text. • Sprachverarbeitung: extrahiert aus dem erkannten Text seine situationsspezifische Bedeutung. • Dialogsteuerung: steuert den Ablauf der Konversation, speichert History und Kontext, greift auf die Datenbank zu und generiert den Inhalt von Systemäußerungen. • Datenbank: speichert die gesamte dem System zur Verfügung stehende Domäneninformation. • Sprachgenerierung: formuliert Systemäußerungen sprachlich. • Sprachsynthese: produziert das Audio-Sprachsignal. © Harald Trost VU Multimedia und Sprache WS2014/15 Dialogsysteme: Architektur © Harald Trost VU Multimedia und Sprache WS2013/14 47 Dialogsysteme: Dialogablauf Greeting Info request Info request Info request Confirmation End © Harald Trost VU Multimedia und Sprache WS2013/14 Dialogsysteme: Eingabeaufforderungen • Die Antwort des Benutzers richtet sich nach der Formulierung der Aufforderung! • Formuliere Aufforderungen so, dass der Benutzer die Information liefert, die erwartet wird. • Sorgfältiges Design der Aufforderungen ist wesentlich, um die Initiative im Dialog beim System zu behalten. • Häufige Aufforderungen sollten kurz sein. • Ausführlichere Aufforderungen nur für Hilfe, Fehler und Hinweise einsetzen. © Harald Trost VU Multimedia und Sprache WS2014/15 48 Dialogsysteme: Grammatik der Benutzeräußerungen • Üblich ist eine Realisierung der Grammatiken als Menge endlicher Automaten • Zustandsübergänge werden durch das Auftauchen von Schlüsselwörtern signalisiert. • Jede Grammatik ist ein trade-off zwischen – großer Vielfalt an akzeptierten Äußerungen, weil sich Menschen in sehr unterschiedlicher Form äußern; – geringer Vielfalt um die Qualität der Spracherkennung nicht zu kompromittieren. • Essentiell ist die gute Koordination zwischen Aufforderungen und Grammatiken © Harald Trost VU Multimedia und Sprache WS2014/15 Dialogsysteme: Dialogmanagement - Beispiel Dialog1 C: Would you like movie showtime or theater playlist info? U: Movie showtime. C: What movie do you want showtime information about? U: Saving Private Ryan. C: At what theatre do you want to see Saving Private Ryan. U: The Paramount Theatre. C: Saving Private Ryan is not playing at the Paramount Theatre. Dialog2 C: How may I help you? U: When is Saving Private Ryan playing? C: For what theatre? U: The Paramount Theatre. C: Saving Private Ryan is not playing at the Paramount Theatre, but it is playing at the Madison theatre at 3:00, 5:30, 8:00 and 10:30. © Harald Trost VU Multimedia und Sprache WS2013/14 49 Dialogsysteme: Vergleich der Dialoge • Dialog1: • Dialog2: – Initiative beim System – implizite Bestätigung – informiert Benutzer über Scheitern einer Anfrage – unnatürlich – ineffizient © Harald Trost – gemischte Initiative – keine Bestätigung – schlägt beim Scheitern einer Anfrage Alternative vor – natürlicher – effizienter VU Multimedia und Sprache WS2013/14 Dialogsysteme: VoiceXML • Eine Sprache zur Entwicklung von sprachgesteuerten Benutzerschnittstellen • basiert auf dem XML Standard • ermöglicht die einfache Entwicklung von Anwendungen in den Bereichen: – Telephonie – Gerätesteuerung – Netzanwendungen • Infos unter: http://www.w3.org/Voice/Guide © Harald Trost VU Multimedia und Sprache WS2014/15 50 VoiceXML: Sprachumfang • Sprachausgabe (synthetisierte Sprache) • Ausgabe von Audio • Spracherkennung • DTMF (Tastendruck) • Sprachaufnahme • Dialogsteuerung – Auswahlmenü – Formular • Telefon-, bzw. Systemsteuerung © Harald Trost VU Multimedia und Sprache WS2014/15 VoiceXML: Beispiel (Code) menu.vxml 1 <?xml version="1.0"?> 2 <vxml version="1.0"> 3 4 <menu> 5 <prompt> Choose from <enumerate/></prompt> 6 7 <choice next="sports.vxml"> sports </choice> 8 <choice next="weather.vxml"> weather </choice> 9 <choice next="news.vxml"> news </choice> 10 11 <help> 12 If you would like sports scores, say sports. 13 For local weather reports, say weather, or 14 for the latest news, say news. 15 </help> 16 17 <noinput>You must say something.</noinput> 18 19 <nomatch>Please speak clearly and try again.</nomatch> 20 21 </menu> 22 23 </vxml> © Harald Trost VU Multimedia und Sprache WS2014/15 51 VoiceXML: Beispiel (Dialog) Computer: Choose from sports, weather, news. Human: (user says nothing) Computer: You must say something. Choose from sports, weather, news. Human: Tbilisi Computer: Please speak clearly and try again. Choose from sports, weather, news. Human: Help Computer: If you would like sports scores, say sports. For local weather reports, say weather, or for the latest news, say news. Human: Sports Computer: (proceeds to sports.vxml) © Harald Trost VU Multimedia und Sprache WS2014/15 52