Einführung in die Geschichte der Sprachverarbeitung
Transcrição
Einführung in die Geschichte der Sprachverarbeitung
ScanSoft Automotive “Einführung in die Geschichte der Sprachverarbeitung” Slide 1 Agenda • Wer ist ScanSoft? • Was ist „Sprache“? • Einführung in die elektronische Sprachverarbeitung • Einführung in die Sprachsynthese • Einführung in die Spracherkennung • Sprachtechnologie in der Praxis Slide 2 1 Who is ScanSoft ? The world leading supplier of digital imaging, speech and language solutions that are used to automate a wide range of manual processes – saving time, increasing productivity and improving customer service. Slide 3 The Mission: Productivity Without Boundaries Productivity Applications Integrated Technologies Slide 4 2 Das Phänomen „Sprache“: - engl.: Speech, Voice, Language - natürlichste Kommunikationsform des Menschen - seit über 200 Jahren Gegenstand fachübergreifender wissenschaftlicher Untersuchungen - Teilbereich der künstlichen Intelligenz (Informatik) sowie der Nachrichtentechnik Slide 5 Was ist Sprache ? - Mathematisch: ein hochgradig statistischer Prozeß - Physikalisch: der Verlauf des Schalldrucks in Abhängigkeit von der Zeit, hervorgerufen durch das menschliche Artikulationsorgan - Biologisch: eine Einzigartigkeit des Menschen, ein „sprechendes Entsprechendes“ - im Computer: Folge von Nullen und Einsen Slide 6 3 Das Organon-Modell der Sprache nach Karl Bühler: Symbol Symptom Signal Slide 7 Teilbereiche der elektronischen Sprachsignalverarbeitung: Slide 8 4 Wie kommt Sprache in den Computer ? 110100010101010100101011000111001001 Slide 9 Das analoge Sprachsignal: Slide 10 5 Das Verfahren der Quantisierung: Slide 11 Das Verfahren der Abtastung: Slide 12 6 Das digitale Sprachsignal: Slide 13 Die logarithmische Codierungskennlinie in A-Law -> das PCM-codierte Sprachsignal: Slide 14 7 DPCM und ADPCM Verfahren: Slide 15 Deltamodulation: Slide 16 8 Die Codierung des Sprachsignals: Slide 17 Redundanzreduktion: . • Entfernen des zum Verständnis des Sprachinhaltes nicht relevanten Teils • Verfahren beruhen im wesentlichen auf Shannons während des Krieges entwickelten Informationstheorie • berücksichtigt statistische Eigenschaften der geschriebenen und / oder gesprochenen Sprache Beispiel für Rückcodierung im menschlichen Gehirn: - Mrgnstnd ht Gld m Mnd - FINISHED FILES ARE THE RESULT OF YEARS OF SCIENTIFIC STUDY COMBINED WITH THE EXPERIENCE OF YEARS Slide 18 9 Eigenschaften der geschriebenen Sprache: - muss vom Menschen explizit mühevoll erlernt werden - besteht aus kleinen Bausteinen wie Buchstaben, Silben, Worten, Phrasen, Sätzen etc. - Syntax und Grammatik einer Sprache bestimmen die Zusammensetzung der einzelnen Bausteine - Semantik von Begriffen ist nicht immer eindeutig - geschrieben Sprache wurde vom Menschen erfunden und entwickelt, um immer höhere Abstraktionsstufen zu erreichen (Ableitung neuer Begriffe) - erste Schriftsprachen als wort-basierte Sprachen in Ägypten Slide 19 Auftretenswahrscheinlichkeit der einzelnen Buchstaben des Alphabets: Slide 20 10 Digramm-Wahrscheinlichkeiten in der deutschen Sprache: Slide 21 Trigramm-Wahrscheinlichkeiten in der deutschen Sprache: Slide 22 11 Eigenschaften der gesprochenen Sprache: - wird vom Menschen vor der geschriebenen Sprache durch Nachahmung erlernt - statistischer Prozeß - Frequenzbandbreite zwischen 150Hz und 5,5kHz - zur Verständlichkeit reicht Telefonbandbreite (300Hz bis 3,4kHz) - Sprachmuster werden in speziellen Gehirnsegmenten abgelegt - Entwicklung des Gehirns eines Menschen reproduziert die Entwicklung der Sprache im Zeitraffer Slide 23 Grundschema der Spracherzeugung: Slide 24 12 Variation des menschlichen Artikulationsorgans bei verschiedenen Vokallauten: Slide 25 Modulation des Sprachsignals: Slide 26 13 Eigenschaften stimmhafter Laute (1): - periodische Anregung durch die Glottis - Sprachgrundfrequenz: (90 - 130 Hz bei Männern, 200 - 250 Hz bei Frauen, 300 Hz und höher bei Kindern) - Anregungssignal enthält Oberschwingungen Slide 27 Eigenschaften stimmhafter Laute (2): - Filterung im menschlichen Vokaltrakt - lautspezifische Energiekonzentrationen im Frequenzspektrum (Formanten) durch Anregung von Resonanzen im Vokaltrakt - Länge der Laute variabel (ca. 300 ms oder länger) Slide 28 14 Formanten: Slide 29 Beispiel: kurzes a Slide 30 15 Beispiel: langes a Slide 31 Eigenschaften stimmloser Laute: - kein Schwingen der Glottis - Lautgeneration durch Engstellen im Ansatzrohr - Schwingungsanregung der Luft an Engstellen (Rauschanregung) - Filterwirkung des Vokaltraktes - kein periodisches Ausgangssignal - deutlich geringerer Energiegehalt als bei Vokalen - variable Lautlänge - Explosivlaute durch plötzliches Öffnen der Engstelle (60 - 100 ms) Signalverlauf: p Slide 32 16 Störgeräusche: Slide 33 Blockschaltbild der Spracherzeugung: Slide 34 17 Geschichte der Sprachsynthese: - 2 prinzipiell verschiedene Verfahren: 1) Künstliche Spracherzeugung durch Nachbildung des menschlichen Stimmbildungssystems (Formantsynthese ) 2) Zusammensetzung von Sprache aus natürlicher Sprache extrahierter Sprachbausteine - Erste erfolgreiche Erzeugung stimmhafter Laute ab 18.Jhd. in Form von mechanisch - akustischen Röhrenmodellen - Erste mechanisch - elektrische Synthetisatoren im 19.Jhd. - Erste Erfolge in der Zusammensetzung von Sprachbausteinen erst in der Nachkriegszeit Problem: Koartikulation Slide 35 Blockschaltbild der Formantsynthese: Slide 36 18 Grundprobleme bei der Zusammensetzung von Sprachbausteinen (1): - - Normalisierung der Sprachbausteine - Abbildung der Prosodie in den Sprachbausteinen - Berücksichtigung der Lautübergänge und Koartikulationen - Bestimmung der optimalen Größe und Anzahl der Sprachbausteine Beispiel: Ansagetext: Anrufbeantworter Geschriebene Bausteine: 7xA, 1xB, 5xC, 4xD, 15xE, 3xG, 6xH, 10xI, 1xJ, 1xK, 3xL, 13xN, 2 xO, 7xR, 5xS, 7xT, 2xU, 2xZ Worte: „Guten Tag, leider ist zur Zeit niemand erreichbar. Sie können jedoch nach dem Signalton eine Nachricht hinterlassen.“ Lautsynthese (1) „Ich liebe diese Abendstunde“ Lautsynthese (2) „Danke“ Wortsynthese „Zur guten Nachricht ist sie jedoch erreichbar“ Slide 37 Grundprobleme bei der Zusammensetzung von Sprachbausteinen (2): Konvertierung der phonetischen Transcription und der Prosodieinformation in ein Sprachsignal Bausteine: Phoneme oder Diphone Slide 38 19 Milestones in Speech Synthesis (1): • First Attempts to Explain Production of Speech (Plato, Aristoteles, Hippokrates) • First Devices for Simulation of Birds (Middle Ages) • First Attempts to Synthesize Vowels, Ch.G. Kratzenstein , 1779 • First Speaking Mechanical Machine, Wolfgang von Kempelen, 1791 • First Theory for Production of Vowels, R. Willis, 1830 • Evolution of the Speaking Machine, Charles Wheatstone, 1838 • First Electrical Transmission of Speech, Philip Reis, 1861 • Imitation of Formants with Mechanical Oscillators, Hermann von Helmholtz, 1862 Wolfgang von Kempelen’s Speaking Machine, 1791, Austria Slide 39 Milestones in Speech Synthesis (2): • First Electrical Speech Synthesizer, K.W. Wagner, 1926 • Development of the First Channel -Vocoder , K.O. Schmidt, 1932 Homer Dudley’s Voder, 1939, USA The Voder (Voice Operating Demonstrator), Homer Dudley, 1939 Pattern Playback Synthesizer, Franklin Cooper, 1951 Slide 40 20 Milestones in Speech Synthesis (3): Gunnar Fant’s OVE, 1960, Sweden First Formant Synthesizer, OVE (Orator Verbis Electris), Gunnar Fant, 1960 First Reading Machine with Optical Scanner, Kurzweil , 1976 Slide 41 Milestones in Speech Synthesis (4): Texas Instruments “Speak & Spell”, 1978, USA 21 Vocoder: - Abbreviation for Voice Coder - System for Low-Bandwidth Transmission of Speech - Consists of a Speech Analysis and Coding Part on Sending and a Speech Synthesis Part on Receiving Side - Channel-Vocoder, Formant-Vocoder, Time Domain-Vocoder, LPC-Vocoder, RELP-Vocoder - Transmission Bandwidth of app. 2400 bit/s - Speech Quality too low for Application in the Public Telephone Network (special Problem: Prosody Control) - Today mainly used in Music Synthesisers for HiFi Effects Examples: Monotone Vocoder Voice with Low Bandwidth Vocoder with Manual Pitch Control Vocoder with Noise Stimulation (Whispering) Vocoder with Music Stimulation Slide 43 The History of Speech Synthesis at the End of the 20th Century: Example: Technical University of Dresden Format Synthesizer ROSY, 1977 Vowel Synthesizer, 1962 Formant Synthesis Board TUSY, 1987 Time Domain Synthesis without Prosody Control, 1991 Formant Synthesizer, 1993 PSOLA Diphon Synthesis, 1994 Single Board Formant Synthesizer TUSY, 1987 Slide 44 22 ScanSoft TTS Systems: . Mother Jennifer ScanSoft “TTS3000” Sister Deborah Brother David Baby Compact Grand Child Ultra Compact ScanSoft “RealSpeak” Grand Ma TTS 3000 Slide 45 Overview over US English TTS Systems: . Examples: ScanSoft RealSpeak Fonix iSpeak ScanSoft TTS3000 ELAN TTS, Diphon Synthesis, Male Voice ELAN TTS, Diphon Synthesis, Female Voice Babel Infovox 330, Diphon Synthesis of Telia Speechworks Eloquence, Formant Synthesis Speechworks Speechify, Concatenative Synthesis, Male Voice Speechworks Speechify, Concatenative Synthesis, Female Voice IBM ViaVoice, Formant Synthesis IBM ViaVoice, Concatenative Synthesis AT&T Natural Voice , Concatenative Synthesis, Male Voice AT&T Natural Voice, Concatenative Synthesis, Female Voice Loquendo, Platform TTS, Female Voice Slide 46 23 Overview over German TTS Systems: . Examples: ScanSoft RealSpeak ScanSoft TTS3000, Diphon Sysnthesis ScanSoft TrueVoice, Formant Synthesis ELAN SpeechCube IBM ViaVoice, Format Synthesis IBM ViaVoice, Concatenative Synthesis Loquendo, Platform TTS ELAN TTS, Diphon Synthesis Logox, Mikro Segment Synthesis of GDATA Fonix iSpeak Bell Labs, LPC Diphon Synthesis of Lucent Technologies AT&T Natural Voice, Concatenative Synthesis Aculab , Diphon Synthesis Speechworks Eloquence, Formant Synthesis-by-Rules Nuance Vocalizer , Component of Speech Platform SVOX, Commercial Arm of ETH Zurich Babel Infovox 230, Formant Synthesis of Telia Babel Infovox 330, Diphon Synthesis of Telia Slide 47 Overview over French TTS Systems: . Examples: ScanSoft RealSpeak ScanSoft TTS3000 ELAN TTS, Diphon Synthesis, Male Voice ELAN TTS, Diphon Synthesis, Female Voice Babel Infovox 330, Diphon Synthesis of Telia Speechworks Eloquence, Formant Synthesis Speechworks Speechify, Concatenative Synthesis IBM ViaVoice, Formant Synthesis IBM ViaVoice, Concatenative Synthesis Loquendo, Platform TTS Fonix iSpeak Slide 48 24 Overview over Spanish TTS Systems: . Examples: ScanSoft RealSpeak Fonix iSpeak ScanSoft TTS3000 AT&T Natural Voice, Concatenative Synthesis ELAN TTS, Diphon Synthesis, Male Voice ELAN TTS, Diphon Synthesis, Female Voice ELAN TTS, Diphon Synthesis, Male Voice, South America Babel Infovox 330, Diphon Synthesis of Telia Speechworks Eloquence, Formant Synthesis Speechworks Eloquence, Formant Synthesis, Mexican Spanish IBM ViaVoice, Formant Synthesis IBM ViaVoice, Concatenative Synthesis IBM ViaVoice, Formant Synthesis, Mexican Spanish Loquendo, Platform TTS, Male Voice Loquendo, Platform TTS, Female Voice, South America Slide 49 General Challenges in Speech Synthesis: • Automatic Transcription (G2P) Assignment between Text (app. 26 Character Alphabet) and Phonemes (app. 40 Phonemes per language) • Automatic Prosody Control Variation of Pitch Frequency, Intonation, Accentuation, Emotions etc. • Context dependent meanings Example: Slide 50 25 Prosody Generation Definition: rhythm, melody. Importance: intelligibility, naturalness. Slide 51 Critical Problems for Speech Syntisizers: • Text- / linguistic Analysis - Text-to-Grapheme • Text Normalization - Numbers and Numerals Example: 23.6.1967 as date, 1/3 as a third, Henry VIII as “the eighth”, +49-172-6765525 as phone number - Abbreviations and Acronyms Example: SOS as S-O-S, MPEG as M-Peg, NATO as Nato, $ 20 as 20 US Dollar, 10% as percent • Pronunciation and Accentuation Example: Questions, Sentence Accents • Foreign Expressions Example: Computer, Software, Windows, OK in Non-English Languages Slide 52 26 The Text-to-Speech System Slide 53 RealSpeak Versions: • PC/MM Multimedia – Desktop and Web Applications • Server Versions – Telecom-TTS-Server – File-Generator • RealSpeak Host – different Telecom Platforms – Unified Messaging • RealSpeak Compact / Ultra Compact – PDA Applications – Mobile Communication Slide 54 27 Tuning the TTS Output: • Pre-Processors - E-Mail - HTML/XML - User-defined Pre-Processors Without E-Mail Pre-Processor With E-Mail Pre-Processor • Esc-Sequences Dynamic Influence on TTS Output at Runtime • Reading-Modes - Spelling, Word-for-Word, Sentence-for -Sentence • Internal Pre -Processing - Currencies, Date & Time, Abbreviations etc. • Exception Dictionaries Slide 55 The RealSpeak Architecture Orthographic Text Grapheme-to-Phoneme Module Phonetic Transcription Prosodic Module Enriched Phonetic Transcription Language dependent Segment Database Language Independent TTS Engine Speech Output Slide 56 28 TTS Processing Steps “welcome” linguistic processing ‘wEl-k$m prosody generation synthesis Slide 57 The Architecture of RealSpeak: • Phonetic Input Orthographic Text to SPT (Simple Phonetic Transcription) using L&H+ • Language Independent Engine - Unit Selector 1. Symbolic Match (Accent, left-right-Context, Position in Phrase) 2. Match of Features (Tone, Spectral Characteristics) - Concatenator 1. Combines Segments 2. Adapts Pause Length • Language Dependent Segment Database Example: 435 MB Recordings in German (= 3 Hours), > 100.000 Segments Slide 58 29 The RealSpeak Architecture Orthographic Text Grapheme-to-Phoneme Module Phonetic Transcription Prosodic Module Enriched Phonetic Transcription Customer -specific Language Independent TTS Engine Speech Database Speech Output Slide 59 The L&H+ Phonetic Alphabet Slide 60 30 Exception-Dictionaries Without Exception-Dictionary With Exception-Dictionary Slide 61 TTS Product Family Speech Quality Recorded Prompts (Studio) Human-like RealSpeak TBA RealSpeak Ultra Compact Concatenative Synthesis Formant Synthesis RealSpeak Compact Competition TTS3000 Complexity Competition • 25 MIPS • 1.5 MB • ~50 MIPS • ~6-8 MB • >100 MIPS • 16 MB • >100 MIPS • > 32 MB Slide 62 31 RealSpeak Audio Samples: . RealSpeak PCMM: US English German French RealSpeak Compact: US English German French RealSpeak Ultra Compact: US English German French Slide 63 Zum Begriff der Sprachqualität: Erkennbarkeit Prosodie Natürlichkeit Geschwindigkeit „Sprachqualität“ Störfreiheit Freundlichkeit Lebendigkeit Verständlichkeit Slide 64 32 Verfahren zur Messung der Sprachqualität: 1) Auditive Verfahren a) Globale Bewertung: - MOS (Mean Opinion Score) - Kategoriezuordnungstests (Absolute oder Degradation Category Rating, ACR - DCR) b) Diagnostische Bewertung: - Verständlichkeitstests (Reimtest, CLID, Logatomverständlichkeit) - Prosodietest 2) Apperative Verfahren - z.B. PSQM, PESQ - versucht zum gleichen Ergebnis wie auditive Verfahren zu gelangen Slide 65 Der MOS-Test zur Prüfung der Sprachqualität: 1) ITU Test zur Prüfung natürlicher Sprache - 5-stufige Bewertungsskala - Bewertungskriterien: Gesamteindruck, Höranstrengung, Schwierigkeit des Verstehens, Deutlichkeit der Aussprache, Aussprachefehler, Betonungsfehler, Sprechgeschwindigkeit, Annehmlichkeit der Sprache 2) Verfahren von Jongenburger und van Bezooijen zur Prüfung synthetischer Sprache - 10-Punkte Skala ohne Mitte - Bewertungskriterien: Gesamtqualität, Verständlichkeit, Natürlichkeit, Aussprachefehler, Präzision der Artikulation, Betonungsfehler, Sprechgeschwindigkeit, Annehmlichkeit der Stimme, Lebendigkeit, Redefluss Slide 66 33 Sprachverarbeitung im menschlichen Gehör: Slide 67 Frequenzbereich des menschlichen Gehörs: Slide 68 34 Kenndaten des menschlichen Gehörs: - Frequenzbereich: 20 bis 20.000 Hz - Schmerzempfinden ab 120 dB - maximale Empfindlichkeit zwischen 3 und 4 kHz - subjektive Lautstärkewahrnehmung ist frequenzabhängig - Hörvermögen nimmt mit zunehmendem Alter im oberen Frequenzbereich ab - Schallsignale werden im Gehör verarbeitet und dann vom Innenohr an das Gehirn weitergeleitet Slide 69 Die Hörfläche: Slide 70 35 Kurven gleicher Lautstärke: Slide 71 Wahrnehmbare Frequenzunterschiede: Slide 72 36 Richtungshören: Beispiel: Slide 73 Informationsverarbeitung des Menschen: Slide 74 37 Das menschliche Gehirn: Slide 75 Das menschliche Neuron: Slide 76 38 Konnektivität / Vernetzung im menschlichen Gehirn (Stichwort „Lernfähigkeit“): - ca. 100 Milliarden Neuronen - im Mittel etwa 10.000 Querverbindungen pro Neuron - Ordnung von Neuronen bis zum 3. Lebensjahr, starke synaptische Aktivität bis zur Pubertät Slide 77 Das künstliche Neuron / neuronale Netze: Slide 78 39 Das Mulilayer-Perzeptron: Slide 79 Geschichte der Spracherkennung: - wesentlich jünger als die der künstlichen Spracherzeugung - erfolgversprechende Methoden erst in den letzten 25 Jahren - hält Schritt mit der Entwicklung leistungsfähiger Computer - beginnt mit der Realisierung von sprecherabhängigen Einzelworterkennern - geprägt von überzogenen und verfrühten Erwartungen - Ernüchterung Anfang 90er Jahre - entscheidende Entwicklungen in den letzten 5 Jahren Slide 80 40 Einteilung von Spracherkennungssystemen (Begriffsklärung): - - sprecherabhängig - kleiner Wortschatz <-> <-> - wortbasierte Erkennung - Command&Control (C&C) <-> <-> sprecherunabhängig mittlerer / großer Wortschatz phonembasierte Erkennung kontinuierliche Sprache - Multimediaanwendung - Spracherkennung - online Korrektur <-> <-> <-> Telefonieanwendung Sprechererkennung Umsetzung im Hintergrund Slide 81 Das Grundprinzip der Spracherkennung: Slide 82 41 Abläufe bei der Spracherkennung: Akustische Merkmalanalyse Phonetische Merkmalextraktion Segmentierung und Klassifikation Wortbildung (lexikalische Analyse) Syntaktische Untersuchung Semantische Einordnung Pragmatische Einordnung Slide 83 Hidden MarkovModelle: Slide 84 42 Berücksichtigung der Variation der Sprechgeschwindigkeit mit Hidden MarkovModellen: Slide 85 Über Sprachmodelle: - - Unigramm-Wahrscheinlichkeit z.B. Rat <-> Rad - Bigramm-Wahrscheinlichkeit z.B. rundes Rad - Trigramm-Wahrscheinlichkeit z.B. ein guter Rat - semantische Unterschiede, die sich nicht anhand der gesprochenen Sprache identifizieren lassen (Mehrdeutigkeiten) Beispiel: Sie is(s)t eine Gans - semantische Unterschiede, die sich aus dem Kontext ergeben Beispiel: Sie ist eine dumme Gans Slide 86 43 Sprechererkennung: - Sprecher - Identifizierung Überprüfung einer gesprochenen Authifizierung mit Hilfe von Referenzmustern - Anwendungsgebiete: Telefonbanking, Sicherheitssysteme, Automotive - Sprecher - Verifizierung komplexe, eindeutige Zuordnung eines Sprachsignals zu einer Person mit Hilfe von Stimmabdrücken (Voice Prints) - Anwendungsgebiet: Kriminologie Beispiel: Slide 87 ASR Product Family Functionality Mobile Terminals Server Dragon Nat Speaking • Dictation • Large Vocabulary • SI DSR Medium Vocabulary ASR1600 • SI • Phoneme ASR300 • SI and SD • Words • SD • Words Complexity ASR100 • 5-10 MIPS • < 12 Kbytes • 20 MIPS • 300 Kbytes • 60 MIPS • 1-2 Mbytes • > 200 MIPS • 22 Mbytes Slide 88 44 ASR1600 Noise Reduction: Original Recordings: Re-Synthesised Signals after ASR1600 Noise Reduction: Slide 89 Stereo Acoustic Echo Cancellation: Original Signal at Microphone Signal after First (Linear) Processing - Echo Cancellation Slide 90 45 Praktische Anwendungen: Slide 91 Mobile Access to Information: Desktop Home PC TV Cell. Phone Phone Mobile PDA Pocket PCs Automotive Mobile Office Server Voice Portals Embedded Slide 92 46 Topologies for Speech Processing: Information Server (Web -Server) Data Channel 1) Speech Engine on-board Speech Engine Client-Server Data Channel 2) Distributed Processing Speech Server Speech Engine Speech Engine Speech Speech Server Speech 3) Speech Engine off-board Voice Portal/ Telematics Engine Slide 93 Rapid Growth Trends in Speech and Language Speech and language software spending expected to reach $200 million in 2002 Growth drivers include: PCs Mobile Phones PDAs Smart Handhelds Telematics 450 million installed base 850 million subscribers 53 million units 7.5 million devices 1 million installed units * 2002 estimates based on aggregated data Slide 94 47 Kontinuierliche Spracherkennung mit sehr großem Wortschatz (Diktieren): Slide 95 Ich bedanke mich für die Aufmerksamkeit und stehe für Fragen gerne zur Verfügung Cassablanca Romeo & Julia www.scansoft.com/automotive Slide 96 48