Einführung in die Geschichte der Sprachverarbeitung

Transcrição

Einführung in die Geschichte der Sprachverarbeitung
ScanSoft Automotive
“Einführung in die Geschichte der
Sprachverarbeitung”
Slide 1
Agenda
• Wer ist ScanSoft?
• Was ist „Sprache“?
• Einführung in die elektronische
Sprachverarbeitung
• Einführung in die Sprachsynthese
• Einführung in die Spracherkennung
• Sprachtechnologie in der Praxis
Slide 2
1
Who is ScanSoft ?
The world leading supplier of digital imaging,
speech and language solutions that are used to
automate a wide range of manual processes –
saving time, increasing productivity and
improving customer service.
Slide 3
The Mission:
Productivity Without Boundaries
Productivity
Applications
Integrated
Technologies
Slide 4
2
Das Phänomen „Sprache“:
- engl.: Speech, Voice, Language
- natürlichste Kommunikationsform des Menschen
- seit über 200 Jahren Gegenstand fachübergreifender
wissenschaftlicher Untersuchungen
- Teilbereich der künstlichen Intelligenz (Informatik)
sowie der Nachrichtentechnik
Slide 5
Was ist Sprache ?
- Mathematisch:
ein hochgradig statistischer Prozeß
- Physikalisch:
der Verlauf des Schalldrucks in Abhängigkeit von der Zeit,
hervorgerufen durch das menschliche Artikulationsorgan
- Biologisch:
eine Einzigartigkeit des Menschen,
ein „sprechendes Entsprechendes“
- im Computer:
Folge von Nullen und Einsen
Slide 6
3
Das Organon-Modell der Sprache
nach Karl Bühler:
Symbol
Symptom
Signal
Slide 7
Teilbereiche der elektronischen
Sprachsignalverarbeitung:
Slide 8
4
Wie kommt Sprache in den Computer ?
110100010101010100101011000111001001
Slide 9
Das analoge Sprachsignal:
Slide 10
5
Das Verfahren der Quantisierung:
Slide 11
Das Verfahren der Abtastung:
Slide 12
6
Das digitale Sprachsignal:
Slide 13
Die logarithmische Codierungskennlinie in A-Law
-> das PCM-codierte Sprachsignal:
Slide 14
7
DPCM und ADPCM Verfahren:
Slide 15
Deltamodulation:
Slide 16
8
Die Codierung des Sprachsignals:
Slide 17
Redundanzreduktion:
.
• Entfernen des zum Verständnis des Sprachinhaltes
nicht relevanten Teils
• Verfahren beruhen im wesentlichen auf Shannons
während des Krieges entwickelten Informationstheorie
• berücksichtigt statistische Eigenschaften der
geschriebenen und / oder gesprochenen Sprache
Beispiel für Rückcodierung im menschlichen Gehirn:
- Mrgnstnd ht Gld m Mnd
- FINISHED FILES ARE THE RESULT OF YEARS OF SCIENTIFIC
STUDY COMBINED WITH THE EXPERIENCE OF YEARS
Slide 18
9
Eigenschaften der geschriebenen Sprache:
- muss vom Menschen explizit mühevoll erlernt werden
- besteht aus kleinen Bausteinen wie Buchstaben, Silben,
Worten, Phrasen, Sätzen etc.
- Syntax und Grammatik einer Sprache bestimmen die
Zusammensetzung der einzelnen Bausteine
- Semantik von Begriffen ist nicht immer eindeutig
- geschrieben Sprache wurde vom Menschen erfunden und
entwickelt, um immer höhere Abstraktionsstufen zu erreichen
(Ableitung neuer Begriffe)
- erste Schriftsprachen als wort-basierte Sprachen in Ägypten
Slide 19
Auftretenswahrscheinlichkeit der einzelnen
Buchstaben des Alphabets:
Slide 20
10
Digramm-Wahrscheinlichkeiten in der
deutschen Sprache:
Slide 21
Trigramm-Wahrscheinlichkeiten in der
deutschen Sprache:
Slide 22
11
Eigenschaften der gesprochenen Sprache:
- wird vom Menschen vor der geschriebenen Sprache durch
Nachahmung erlernt
- statistischer Prozeß
- Frequenzbandbreite zwischen 150Hz und 5,5kHz
- zur Verständlichkeit reicht Telefonbandbreite
(300Hz bis 3,4kHz)
- Sprachmuster werden in speziellen
Gehirnsegmenten abgelegt
- Entwicklung des Gehirns eines
Menschen reproduziert die
Entwicklung der Sprache im Zeitraffer
Slide 23
Grundschema der Spracherzeugung:
Slide 24
12
Variation des menschlichen Artikulationsorgans bei verschiedenen Vokallauten:
Slide 25
Modulation des Sprachsignals:
Slide 26
13
Eigenschaften stimmhafter Laute (1):
- periodische Anregung durch die Glottis
- Sprachgrundfrequenz:
(90 - 130 Hz bei Männern, 200 - 250 Hz bei Frauen,
300 Hz und höher bei Kindern)
- Anregungssignal enthält Oberschwingungen
Slide 27
Eigenschaften stimmhafter Laute (2):
- Filterung im menschlichen Vokaltrakt
- lautspezifische Energiekonzentrationen im
Frequenzspektrum (Formanten) durch Anregung
von Resonanzen im Vokaltrakt
- Länge der Laute variabel (ca. 300 ms oder länger)
Slide 28
14
Formanten:
Slide 29
Beispiel: kurzes a
Slide 30
15
Beispiel: langes a
Slide 31
Eigenschaften stimmloser Laute:
- kein Schwingen der Glottis
- Lautgeneration durch Engstellen im Ansatzrohr
- Schwingungsanregung der Luft an Engstellen
(Rauschanregung)
- Filterwirkung des Vokaltraktes
- kein periodisches Ausgangssignal
- deutlich geringerer Energiegehalt als bei Vokalen
- variable Lautlänge
- Explosivlaute durch plötzliches Öffnen der Engstelle
(60 - 100 ms)
Signalverlauf: p
Slide 32
16
Störgeräusche:
Slide 33
Blockschaltbild der Spracherzeugung:
Slide 34
17
Geschichte der Sprachsynthese:
- 2 prinzipiell verschiedene Verfahren:
1) Künstliche Spracherzeugung durch Nachbildung des
menschlichen Stimmbildungssystems (Formantsynthese )
2) Zusammensetzung von Sprache aus natürlicher Sprache
extrahierter Sprachbausteine
- Erste erfolgreiche Erzeugung stimmhafter Laute ab 18.Jhd.
in Form von mechanisch - akustischen Röhrenmodellen
- Erste mechanisch - elektrische Synthetisatoren im 19.Jhd.
- Erste Erfolge in der Zusammensetzung von Sprachbausteinen erst in der Nachkriegszeit
Problem: Koartikulation
Slide 35
Blockschaltbild der Formantsynthese:
Slide 36
18
Grundprobleme bei der Zusammensetzung
von Sprachbausteinen (1):
-
- Normalisierung der Sprachbausteine
- Abbildung der Prosodie in den Sprachbausteinen
- Berücksichtigung der Lautübergänge und Koartikulationen
- Bestimmung der optimalen Größe und Anzahl der
Sprachbausteine
Beispiel:
Ansagetext: Anrufbeantworter
Geschriebene Bausteine:
7xA, 1xB, 5xC, 4xD, 15xE, 3xG, 6xH, 10xI, 1xJ, 1xK, 3xL, 13xN, 2 xO, 7xR, 5xS, 7xT, 2xU, 2xZ
Worte:
„Guten Tag, leider ist zur Zeit niemand erreichbar. Sie können jedoch nach dem Signalton
eine Nachricht hinterlassen.“
Lautsynthese (1)
„Ich liebe diese Abendstunde“
Lautsynthese (2)
„Danke“
Wortsynthese
„Zur guten Nachricht ist sie jedoch erreichbar“
Slide 37
Grundprobleme bei der Zusammensetzung
von Sprachbausteinen (2):
Konvertierung der phonetischen Transcription und
der Prosodieinformation in ein Sprachsignal
Bausteine: Phoneme oder Diphone
Slide 38
19
Milestones in Speech Synthesis (1):
• First Attempts to Explain Production of Speech (Plato, Aristoteles, Hippokrates)
• First Devices for Simulation of Birds (Middle Ages)
• First Attempts to Synthesize Vowels, Ch.G. Kratzenstein , 1779
• First Speaking Mechanical Machine, Wolfgang von Kempelen, 1791
• First Theory for Production of Vowels, R. Willis, 1830
• Evolution of the Speaking Machine, Charles Wheatstone, 1838
• First Electrical Transmission of Speech, Philip Reis, 1861
• Imitation of Formants with Mechanical Oscillators, Hermann von Helmholtz, 1862
Wolfgang von Kempelen’s
Speaking Machine, 1791, Austria
Slide 39
Milestones in Speech Synthesis (2):
• First Electrical Speech Synthesizer, K.W. Wagner, 1926
• Development of the First Channel -Vocoder , K.O. Schmidt, 1932
Homer Dudley’s
Voder, 1939, USA
The Voder (Voice Operating Demonstrator), Homer Dudley, 1939
Pattern Playback Synthesizer, Franklin Cooper, 1951
Slide 40
20
Milestones in Speech Synthesis (3):
Gunnar Fant’s
OVE, 1960, Sweden
First Formant Synthesizer, OVE (Orator Verbis Electris), Gunnar Fant, 1960
First Reading Machine with Optical Scanner, Kurzweil , 1976
Slide 41
Milestones in Speech Synthesis (4):
Texas Instruments
“Speak & Spell”,
1978, USA
21
Vocoder:
- Abbreviation for Voice Coder
- System for Low-Bandwidth Transmission of Speech
- Consists of a Speech Analysis and Coding Part on Sending and a Speech
Synthesis Part on Receiving Side
- Channel-Vocoder, Formant-Vocoder, Time Domain-Vocoder,
LPC-Vocoder, RELP-Vocoder
- Transmission Bandwidth of app. 2400 bit/s
- Speech Quality too low for Application in the Public Telephone Network
(special Problem: Prosody Control)
- Today mainly used in Music Synthesisers for HiFi Effects
Examples:
Monotone Vocoder Voice with Low Bandwidth
Vocoder with Manual Pitch Control
Vocoder with Noise Stimulation (Whispering)
Vocoder with Music Stimulation
Slide 43
The History of Speech Synthesis
at the End of the 20th Century:
Example: Technical University of Dresden
Format Synthesizer ROSY, 1977
Vowel Synthesizer, 1962
Formant Synthesis Board TUSY, 1987
Time Domain Synthesis without Prosody Control, 1991
Formant Synthesizer, 1993
PSOLA Diphon Synthesis, 1994
Single Board Formant Synthesizer
TUSY, 1987
Slide 44
22
ScanSoft TTS Systems:
.
Mother Jennifer
ScanSoft “TTS3000”
Sister Deborah
Brother David
Baby Compact
Grand Child Ultra Compact
ScanSoft “RealSpeak”
Grand Ma TTS 3000
Slide 45
Overview over US English TTS Systems:
.
Examples:
ScanSoft RealSpeak
Fonix iSpeak
ScanSoft TTS3000
ELAN TTS, Diphon Synthesis, Male Voice
ELAN TTS, Diphon Synthesis, Female Voice
Babel Infovox 330, Diphon Synthesis of Telia
Speechworks Eloquence, Formant Synthesis
Speechworks Speechify, Concatenative Synthesis, Male Voice
Speechworks Speechify, Concatenative Synthesis, Female Voice
IBM ViaVoice, Formant Synthesis
IBM ViaVoice, Concatenative Synthesis
AT&T Natural Voice , Concatenative Synthesis, Male Voice
AT&T Natural Voice, Concatenative Synthesis, Female Voice
Loquendo, Platform TTS, Female Voice
Slide 46
23
Overview over German TTS Systems:
.
Examples:
ScanSoft RealSpeak
ScanSoft TTS3000, Diphon Sysnthesis
ScanSoft TrueVoice, Formant Synthesis
ELAN SpeechCube
IBM ViaVoice,
Format Synthesis
IBM ViaVoice,
Concatenative Synthesis
Loquendo, Platform TTS
ELAN TTS, Diphon Synthesis
Logox, Mikro Segment Synthesis of GDATA
Fonix iSpeak
Bell Labs, LPC Diphon Synthesis of Lucent Technologies
AT&T Natural Voice, Concatenative Synthesis
Aculab , Diphon Synthesis
Speechworks Eloquence, Formant Synthesis-by-Rules
Nuance Vocalizer , Component of Speech Platform
SVOX, Commercial Arm of ETH Zurich
Babel Infovox 230, Formant Synthesis of Telia
Babel Infovox 330, Diphon Synthesis of Telia
Slide 47
Overview over French TTS Systems:
.
Examples:
ScanSoft RealSpeak
ScanSoft TTS3000
ELAN TTS, Diphon Synthesis, Male Voice
ELAN TTS, Diphon Synthesis, Female Voice
Babel Infovox 330, Diphon Synthesis of Telia
Speechworks Eloquence, Formant Synthesis
Speechworks Speechify, Concatenative Synthesis
IBM ViaVoice, Formant Synthesis
IBM ViaVoice, Concatenative Synthesis
Loquendo, Platform TTS
Fonix iSpeak
Slide 48
24
Overview over Spanish TTS Systems:
.
Examples:
ScanSoft RealSpeak
Fonix iSpeak
ScanSoft TTS3000
AT&T Natural Voice,
Concatenative Synthesis
ELAN TTS, Diphon Synthesis, Male Voice
ELAN TTS, Diphon Synthesis, Female Voice
ELAN TTS, Diphon Synthesis, Male Voice, South America
Babel Infovox 330, Diphon Synthesis of Telia
Speechworks Eloquence, Formant Synthesis
Speechworks Eloquence, Formant Synthesis, Mexican Spanish
IBM ViaVoice, Formant Synthesis
IBM ViaVoice, Concatenative Synthesis
IBM ViaVoice, Formant Synthesis, Mexican Spanish
Loquendo, Platform TTS, Male Voice
Loquendo, Platform TTS, Female Voice, South America
Slide 49
General Challenges in Speech Synthesis:
• Automatic Transcription (G2P)
Assignment between Text (app. 26 Character Alphabet)
and Phonemes (app. 40 Phonemes per language)
• Automatic Prosody Control
Variation of Pitch Frequency, Intonation, Accentuation,
Emotions etc.
• Context dependent meanings
Example:
Slide 50
25
Prosody Generation
Definition: rhythm, melody.
Importance: intelligibility, naturalness.
Slide 51
Critical Problems for Speech Syntisizers:
•
Text- / linguistic Analysis
- Text-to-Grapheme
•
Text Normalization
- Numbers and Numerals
Example: 23.6.1967 as date, 1/3 as a third, Henry VIII as
“the eighth”, +49-172-6765525 as phone number
- Abbreviations and Acronyms
Example: SOS as S-O-S, MPEG as M-Peg, NATO as Nato,
$ 20 as 20 US Dollar, 10% as percent
•
Pronunciation and Accentuation
Example: Questions, Sentence Accents
•
Foreign Expressions
Example: Computer, Software, Windows, OK
in Non-English Languages
Slide 52
26
The Text-to-Speech System
Slide 53
RealSpeak Versions:
• PC/MM Multimedia
– Desktop and Web Applications
• Server Versions
– Telecom-TTS-Server
– File-Generator
• RealSpeak Host
– different Telecom Platforms
– Unified Messaging
• RealSpeak Compact / Ultra Compact
– PDA Applications
– Mobile Communication
Slide 54
27
Tuning the TTS Output:
• Pre-Processors
- E-Mail
- HTML/XML
- User-defined Pre-Processors
Without E-Mail Pre-Processor
With E-Mail Pre-Processor
• Esc-Sequences
Dynamic Influence on TTS Output at Runtime
• Reading-Modes
- Spelling, Word-for-Word, Sentence-for -Sentence
• Internal Pre -Processing
- Currencies, Date & Time, Abbreviations etc.
• Exception Dictionaries
Slide 55
The RealSpeak Architecture
Orthographic Text
Grapheme-to-Phoneme Module
Phonetic Transcription
Prosodic Module
Enriched Phonetic Transcription
Language
dependent
Segment
Database
Language Independent TTS Engine
Speech Output
Slide 56
28
TTS Processing Steps
“welcome”
linguistic processing
‘wEl-k$m
prosody generation
synthesis
Slide 57
The Architecture of RealSpeak:
• Phonetic Input
Orthographic Text to SPT (Simple Phonetic Transcription)
using L&H+
• Language Independent Engine
- Unit Selector
1. Symbolic Match
(Accent, left-right-Context, Position in Phrase)
2. Match of Features (Tone, Spectral Characteristics)
- Concatenator
1. Combines Segments
2. Adapts Pause Length
• Language Dependent Segment Database
Example: 435 MB Recordings in German (= 3 Hours),
> 100.000 Segments
Slide 58
29
The RealSpeak Architecture
Orthographic Text
Grapheme-to-Phoneme Module
Phonetic Transcription
Prosodic Module
Enriched Phonetic Transcription
Customer
-specific
Language Independent TTS Engine
Speech
Database
Speech Output
Slide 59
The L&H+ Phonetic Alphabet
Slide 60
30
Exception-Dictionaries
Without Exception-Dictionary
With Exception-Dictionary
Slide 61
TTS Product Family
Speech Quality
Recorded
Prompts
(Studio)
Human-like
RealSpeak
TBA
RealSpeak
Ultra
Compact
Concatenative
Synthesis
Formant
Synthesis
RealSpeak
Compact
Competition
TTS3000
Complexity
Competition
• 25 MIPS
• 1.5 MB
• ~50 MIPS
• ~6-8 MB
• >100 MIPS
• 16 MB
• >100 MIPS
• > 32 MB
Slide 62
31
RealSpeak Audio Samples:
.
RealSpeak PCMM:
US English
German
French
RealSpeak Compact:
US English
German
French
RealSpeak Ultra Compact:
US English
German
French
Slide 63
Zum Begriff der Sprachqualität:
Erkennbarkeit
Prosodie
Natürlichkeit
Geschwindigkeit
„Sprachqualität“
Störfreiheit
Freundlichkeit
Lebendigkeit
Verständlichkeit
Slide 64
32
Verfahren zur Messung der Sprachqualität:
1) Auditive Verfahren
a) Globale Bewertung:
- MOS (Mean Opinion Score)
- Kategoriezuordnungstests
(Absolute oder Degradation Category Rating, ACR - DCR)
b) Diagnostische Bewertung:
- Verständlichkeitstests (Reimtest, CLID,
Logatomverständlichkeit)
- Prosodietest
2) Apperative Verfahren
- z.B. PSQM, PESQ
- versucht zum gleichen Ergebnis wie auditive Verfahren
zu gelangen
Slide 65
Der MOS-Test zur Prüfung der Sprachqualität:
1) ITU Test zur Prüfung natürlicher Sprache
- 5-stufige Bewertungsskala
- Bewertungskriterien:
Gesamteindruck, Höranstrengung, Schwierigkeit des Verstehens,
Deutlichkeit der Aussprache, Aussprachefehler, Betonungsfehler,
Sprechgeschwindigkeit, Annehmlichkeit der Sprache
2) Verfahren von Jongenburger und van Bezooijen
zur Prüfung synthetischer Sprache
- 10-Punkte Skala ohne Mitte
- Bewertungskriterien:
Gesamtqualität, Verständlichkeit, Natürlichkeit, Aussprachefehler,
Präzision der Artikulation, Betonungsfehler,
Sprechgeschwindigkeit, Annehmlichkeit der Stimme,
Lebendigkeit, Redefluss
Slide 66
33
Sprachverarbeitung im menschlichen Gehör:
Slide 67
Frequenzbereich des menschlichen Gehörs:
Slide 68
34
Kenndaten des menschlichen Gehörs:
- Frequenzbereich: 20 bis 20.000 Hz
- Schmerzempfinden ab 120 dB
- maximale Empfindlichkeit zwischen 3 und 4 kHz
- subjektive Lautstärkewahrnehmung ist frequenzabhängig
- Hörvermögen nimmt mit zunehmendem Alter im
oberen Frequenzbereich ab
- Schallsignale werden im Gehör verarbeitet und
dann vom Innenohr an das Gehirn weitergeleitet
Slide 69
Die Hörfläche:
Slide 70
35
Kurven gleicher Lautstärke:
Slide 71
Wahrnehmbare Frequenzunterschiede:
Slide 72
36
Richtungshören:
Beispiel:
Slide 73
Informationsverarbeitung des Menschen:
Slide 74
37
Das menschliche Gehirn:
Slide 75
Das menschliche Neuron:
Slide 76
38
Konnektivität / Vernetzung im menschlichen
Gehirn (Stichwort „Lernfähigkeit“):
- ca. 100 Milliarden Neuronen
- im Mittel etwa 10.000 Querverbindungen pro Neuron
- Ordnung von Neuronen bis zum 3. Lebensjahr,
starke synaptische Aktivität bis zur Pubertät
Slide 77
Das künstliche Neuron / neuronale Netze:
Slide 78
39
Das Mulilayer-Perzeptron:
Slide 79
Geschichte der Spracherkennung:
- wesentlich jünger als die der künstlichen Spracherzeugung
- erfolgversprechende Methoden erst in den letzten 25 Jahren
- hält Schritt mit der Entwicklung leistungsfähiger Computer
- beginnt mit der Realisierung von sprecherabhängigen
Einzelworterkennern
- geprägt von überzogenen und verfrühten Erwartungen
- Ernüchterung Anfang 90er Jahre
- entscheidende Entwicklungen in den letzten 5 Jahren
Slide 80
40
Einteilung von Spracherkennungssystemen
(Begriffsklärung):
-
- sprecherabhängig
- kleiner Wortschatz
<->
<->
- wortbasierte Erkennung
- Command&Control (C&C)
<->
<->
sprecherunabhängig
mittlerer / großer
Wortschatz
phonembasierte Erkennung
kontinuierliche Sprache
- Multimediaanwendung
- Spracherkennung
- online Korrektur
<->
<->
<->
Telefonieanwendung
Sprechererkennung
Umsetzung im Hintergrund
Slide 81
Das Grundprinzip der Spracherkennung:
Slide 82
41
Abläufe bei der Spracherkennung:
Akustische Merkmalanalyse
Phonetische Merkmalextraktion
Segmentierung und Klassifikation
Wortbildung (lexikalische Analyse)
Syntaktische Untersuchung
Semantische Einordnung
Pragmatische Einordnung
Slide 83
Hidden MarkovModelle:
Slide 84
42
Berücksichtigung der Variation der Sprechgeschwindigkeit mit Hidden MarkovModellen:
Slide 85
Über Sprachmodelle:
-
- Unigramm-Wahrscheinlichkeit
z.B. Rat <-> Rad
- Bigramm-Wahrscheinlichkeit
z.B. rundes Rad
- Trigramm-Wahrscheinlichkeit
z.B. ein guter Rat
- semantische Unterschiede, die sich nicht anhand der
gesprochenen Sprache identifizieren lassen
(Mehrdeutigkeiten)
Beispiel: Sie is(s)t eine Gans
- semantische Unterschiede, die sich aus dem Kontext
ergeben
Beispiel: Sie ist eine dumme Gans
Slide 86
43
Sprechererkennung:
- Sprecher - Identifizierung
Überprüfung einer gesprochenen Authifizierung mit Hilfe
von Referenzmustern
- Anwendungsgebiete:
Telefonbanking, Sicherheitssysteme, Automotive
- Sprecher - Verifizierung
komplexe, eindeutige Zuordnung eines Sprachsignals zu
einer Person mit Hilfe von Stimmabdrücken (Voice Prints)
- Anwendungsgebiet: Kriminologie
Beispiel:
Slide 87
ASR Product Family
Functionality
Mobile Terminals
Server
Dragon Nat Speaking
• Dictation
• Large Vocabulary
• SI
DSR
Medium Vocabulary
ASR1600
• SI
• Phoneme
ASR300
• SI and SD
• Words
• SD
• Words
Complexity
ASR100
• 5-10 MIPS
• < 12 Kbytes
• 20 MIPS
• 300 Kbytes
• 60 MIPS
• 1-2 Mbytes
• > 200 MIPS
• 22 Mbytes
Slide 88
44
ASR1600 Noise Reduction:
Original Recordings:
Re-Synthesised Signals after ASR1600 Noise Reduction:
Slide 89
Stereo Acoustic Echo Cancellation:
Original Signal at Microphone
Signal after First (Linear) Processing - Echo Cancellation
Slide 90
45
Praktische Anwendungen:
Slide 91
Mobile Access to Information:
Desktop
Home PC
TV
Cell. Phone
Phone
Mobile
PDA
Pocket PCs
Automotive
Mobile Office
Server
Voice Portals
Embedded
Slide 92
46
Topologies for Speech Processing:
Information Server (Web -Server)
Data Channel
1) Speech Engine
on-board
Speech
Engine
Client-Server
Data Channel
2) Distributed
Processing
Speech
Server
Speech
Engine
Speech
Engine
Speech
Speech
Server Speech
3) Speech Engine
off-board
Voice Portal/
Telematics
Engine
Slide 93
Rapid Growth Trends in
Speech and Language
Speech and language software spending
expected to reach $200 million in 2002
Growth drivers include:
PCs
Mobile Phones
PDAs
Smart Handhelds
Telematics
450 million
installed base
850 million
subscribers
53 million
units
7.5 million
devices
1 million
installed units
* 2002 estimates based on aggregated data
Slide 94
47
Kontinuierliche Spracherkennung mit sehr
großem Wortschatz (Diktieren):
Slide 95
Ich bedanke mich für die
Aufmerksamkeit und stehe für Fragen
gerne zur Verfügung
Cassablanca
Romeo & Julia
www.scansoft.com/automotive
Slide 96
48

Documentos relacionados