eml voice - EML European Media Laboratory GmbH

Transcrição

EML VOICE
wird
ext ges
T
n
sa
te
mes
rich
ach cemail
n
h
i
ac of vo
Spr
aus cription
e
i
t: W c trans
unf
ti
Zuk utoma
r
e
a
d
:
r
rte future
two
akt
ean x of the
b
f
ont
u
enk enters
Anr mailbo
d
n
Ku tact-c
The
n
e im
ogi s in co
l
o
chn lication
e
t
ach ly app
Spr
d
ird: r-frien
w
en tome
h
c
s
u
ro
esp ics: c
as g Analyt
w
,
en
sen peech
halt
Wis
S
eoin btitles
d
i
V
su
von ideo
tion n for v
p
i
r
o
k
ripti
ans
e Tr transc
h
c
a
s
i
ati : med
tom
s
llau source
o
V
:
l
l
n
a
lle rom
o
F
Que
Aut
len
l
a
g im ontrol
n
u
Aus
er
hc
eec
steu
ach -car sp
r
p
i: S ee: in
fr
efre
rier arrierr
a
B
B
4
6
8
AUSGABE / ISSUE 2014
SPEECH TECHNOLOGY TODAY
Dr. Siegfried Kunzmann
Leiter F & E
R & D Manager
EML European Media Laboratory
2
„Wie“ und „was“
wir sprechen
”How“ and „what”
people speak
Sprachtechnologie für bessere Kommunikation
Speech technology for a better communication
Gesprochene Sprache als eines der wichtigsten menschlichen Kommunikationsmittel und automatische Sprachverarbeitung
werden mehr und mehr genutzt. Das zeigt
auch der „Gartner-Hype Cycle“, ein verlässliches Trendbarometer für die Entwicklung
von Technologien. Diese Kurve zeigt für das
Jahr 2014, dass die Spracherkennung nach
dreißig Jahren Forschung und Entwicklung
das sogenannte „Plateau der Produktivität“
erreicht hat. Das betrifft einige Anwendungsszenarien, zum Beispiel die Navigation mit
Sprache, Telefondialogsysteme oder das
Diktieren am Computer.
Andere Gebiete der Sprachtechnologie sind
auf diesem Plateau noch nicht angekommen. Sie gehören aber laut Gartner-Kurve
zu den wichtigen Trends, die das Verhältnis
von Mensch und Maschine in den nächsten Jahren verändern werden. Dazu zählen
etwa die Sprache-zu-Sprache-Übersetzung
und die automatische Analyse der Kommunikation von Mensch zu Mensch.
Das ist nicht weiter verwunderlich, denn
durch die rasante Verbreitung von Smartphones und Tablet-Computern in der Geschäftswelt und der privaten Nutzung rücken Sprachanwendungen in der mobilen
Kommunikation und Sprachanalyse immer
stärker in den Fokus. Internet- und Telefonverbindungen werden billiger, serverbasierte Spracherkennungssysteme erlauben
die Nutzung neuester Algorithmen bei der
Erkennung. Und die Anwendungen ermöglichen es, viele Tausend Stunden gesprochene Sprache zu sammeln, um damit die
Erkennungsleistung zu verbessern.
Entscheidend sind bei allen Sprachanwendungen sprecherunabhängige Erkennungssysteme mit hoher Qualität. Dabei kommt
es nicht darauf an, die Stimme einzelner
Sprecher zu analysieren, sondern aus den
Stimmen vieler Sprecher statistische Parameter abzuleiten. Damit können die Systeme lernen, „wie“ Menschen sprechen. Für
die erfolgreiche Umsetzung sprachlicher
Kommunikation in Schrift müssen sie aber
auch lernen, „was“ Menschen in bestimmten
Situationen sagen. Hier helfen große Textmengen aus den jeweiligen Anwendungsbereichen, zum Beispiel aktuelle Nachrichten oder Suchanfragen. Je besser man die
Spracherkennung auf die entsprechende
Anwendung optimiert, desto höher sind die
Erkennungsraten und damit der Nutzen für
den Menschen.
Qualitativ hochwertige, sprecherunabhängige Spracherkennungssysteme können
heutzutage sowohl für die Verschriftung von
Nachrichtensendungen oder Parlamentsdebatten als auch für die Verarbeitung von
Kunde-Agent-Gesprächen im Contact-Center oder bei der Verschriftung von Sprachnachrichten auf Anrufbeantwortern eingesetzt werden.
Für die nächsten Jahre ergeben sich positive Aussichten für die Sprachtechnologie.
Sie kann in vielfältiger Weise eingesetzt
werden, um uns zu helfen, unsere Kommunikation mit anderen Menschen effizienter
zu gestalten. Ein Beispiel dafür ist die Verschriftung von Sprachnachrichten: Wer seine Mailbox nicht abhören muss, sondern auf
einen Blick sieht, wer ihm was mitzuteilen
hatte, gewinnt schlicht und einfach Zeit. Hier
gilt im wahren Sinne des Sprichwortes: Wer
lesen kann, ist klar im Vorteil!
Spoken language is one of the most important means of human communication, and
automatic language processing is used
more and more frequently. The “Gartner-Hype Cycle,” a reliable trend barometer for the
development of technologies, illustrates this.
The curve shows that speech recognition
has reached the “Plateau of Productivity” in
2014, after thirty years of research and development. This applies to several application scenarios, for example language-based
navigation, telephone-based speech dialog
systems or dictation on a computer.
Other areas of speech technology have not
reached this plateau yet. According to the
Gartner curve, however, they belong to the
most important trends that will change the
relationship between humans and machines over the next few years. Among them
are speech-to-speech translation and the
automatic analysis of communication from
person to person.
This is not surprising as the rapid dissemination of smartphones and tablet computers in
the business and private world draw more
and more attention to speech applications in
mobile communication and to speech analysis. Internet and telephone connections are
cheaper, server-based speech recognition
systems allow for the use of new algorithms
in recognition, and the applications enable
the collection of thousands of hours of spoken language to improve the recognition performance.
High-quality speaker-independent recognition systems are a decisive factor for all
speech applications. The aim is not to analyze the voices of individual speakers, but to
derive statistical parameters from the voices
of a variety of speakers. This helps the systems to learn “how” people speak. In order to
guarantee a successful conversion of spoken communication into text, however, they
also need to learn “what” people say in specific situations. Large amounts of text from
the respective application areas, like current
news or search queries, are helpful tools to
be used in this case. The better speech recognition is adjusted to the corresponding
application, the higher the recognition rates
are and the greater the benefit for the people.
High-quality, speaker-independent speech
recognition systems are used today for the
transcription of news broadcasts or parliamentary debates and for the processing
of customer-agent conversations in contact centers or voicemails transcriptions on
answering machines.
The outlook for speech technology is very
positive. It can be used in various ways to
help us make our communication with other
people more efficient. An example for this is
voicemail transcription: if you do not have to
listen to your mailbox, but see at a glance
who wanted to know or do what, you simply
win time. One can therefore say: the trend
is your friend.
Sprachtechnologie kann uns
helfen, unsere Kommunikation
mit anderen Menschen effizienter
zu gestalten
Speech technology can help us
make our communication with
other people more efficient
3
Der EML Voicemail2Text Service:
Alle Sprachnachrichten auf einen
Blick
That´s the EML Voicemail2Text
Service: The user can see at a
glance what the caller wanted to
tell her
Der Anrufbeantworter
der Zukunft
The answering machine
of the future
Sprechen statt tippen –
auch unterwegs
Don’t type: speak –
even on the road
Eine EML-Anwendung sorgt vollautomatisch dafür, dass aus Sprachnachrichten Text wird
An EML application automatically
turns voicemail into text
Mobile Plattformen zur Spracherkennung nutzen? Mit der EML-Technologie ist das kein Problem.
Using mobile platforms for speech recognition? No problem with EML technology
Der Trend hin zu Smartphones und Tablets
hat die Spracherkennung in den Fokus der
Nutzer gerückt. Das EML unterstützt diesen
Trend durch Lösungen für mobile Betriebssysteme, die einfach zu integrieren sind.
Der Nutzer erwartet auf mobilen Endgeräten eine schnelle und korrekte Reaktion
auf seine Äußerungen. Deshalb stellt die
EML-Infrastruktur einen „Streaming“-Modus
bereit. Dieser erlaubt es, Sprache in Text
umzuwandeln - in einer für den Nutzer angemessen erscheinenden Reaktionszeit.
Noch während der Nutzer spricht, kann er
auf dem Display seines Geräts erste Ergebnisse der Spracherkennung sehen. Das
EML stellt außerdem für seine Partnerunternehmen einheitliche Schnittstellen und
Bibliotheken für verschiedene mobile Betriebssysteme bereit, damit diese ihren EML
Transcription Server schnell und einfach in
die eigenen Apps integrieren können.
Mit der EML Voicemail App ist der Service
leicht und komfortabel nutzbar: Man kann
schnell und einfach auf die eingehenden
Voicemails eine Antwort per E-Mail diktieren.
Die App ist kostenfrei im Google Play Store
auf Deutsch verfügbar und wird derzeit auch
für Englisch und Spanisch entwickelt. Sie
basiert auf EML-Technologien und greift auf
die am EML entwickelte Server-Infrastruktur
zurück.
The trend towards smartphones and tablets
has put speech recognition in the focus of
users. EML supports this trend by offering solutions for mobile operating systems that are
easy to integrate.
Users expect quick and correct responses to
their remarks on mobile devices. Therefore,
the EML infrastructure offers a “streaming”
mode. This allows a conversion of speech
into text – in a reaction time that the user
deems appropriate.
While users speak, they can already see first
results of the speech recognition on their
displays. Furthermore, the EML provides
standard interfaces and libraries for various
mobile operating systems for its partner companies, so that they can integrate the EML
transcription server fast and easily into their
own Apps.
The service can be used easily and comfortably with the EML Voicemail App: Dictating
an answer to incoming voicemails via e-mail
is fast and simple. The App in German is
available free of cost in the Google Play Store,
and is currently being developed for English
and Spanish. It is based on EML technologies
and draws on the server infrastructure that
was developed at the EML.
Ein zentrales Einsatzgebiet der EMLSprachtechnologie ist die Umwandlung von
Sprachnachrichten in Text. Mit Hilfe des vom
EML entwickelten Voicemail2Text Service
kann diese Technologie bereits heute von
jedem genutzt werden.
Die meisten modernen Anrufbeantworter –
sowohl in einer Haustelefonanlage als auch
im Mobiltelefon – besitzen mittlerweile die
Funktion, aufgezeichnete Nachrichten als
E-Mail weiterzuleiten. Wird diese E-Mail mit
der angehängten Sprachdatei an den EML
Voicemail2Text Service geschickt, bekommt
der Nutzer kurze Zeit später den erkannten
Text als SMS oder E-Mail zugeschickt. Er
erkennt so auf einen Blick, was ihm der Anrufer mitteilen wollte, und kann, wenn nötig,
schnell darauf reagieren.
Die zu diesem Service gehörende App erlaubt es dem Nutzer, sich bequem einen
Überblick über alle Sprachnachrichten zu
verschaffen. Er wird informiert, sobald weitere Sprachnachrichten eintreffen und kann
direkt darauf reagieren, indem er durch die
App den Anrufenden direkt zurückruft oder
eine Antwort in Form einer E-Mail diktiert.
Der Service und die EML Voicemail App
starteten Ende 2013 und sind für Privatpersonen kostenfrei.
A key application area of the EML speech
technology is the conversion of voicemail
into text. With the Voicemail2Text Service,
which was developed by EML, this technology can already be used by the general public.
Most modern answering machines – of both
house telephones and mobile phones – are
equipped with a function that forwards recorded messages as e-mail. If such an e-mail
with the attached voice file is sent to the EML
Voicemail2Text Service, users will shortly
thereafter get the detected text as a short
message or e-mail. Therefore, they can see
at a glance what the caller wanted to tell
them, and can react promptly if necessary.
The corresponding App to this service allows
users an easy overview of all voicemails.
They get a notification as soon as other
voicemails arrive, and can respond to them
immediately by using the App to call back
the caller directly or dictate an answer in the
form of an e-mail.
The service and the EML Voicemail App
were launched in late 2013 and are free for
private use.
Die EML Voicemail App für Android
- kostenlos im Google Playstore
The EML Voicemail App for Android - available free of charge in the
Google Playstore
EML Voicemail App
for Android
4
5
Wissen, was
gesprochen wird
Automatische Verschriftung eine Erleichterung für Kunden
und Mitarbeiter
Automatic transcription makes
life easier for customers
and employees
6
To know what
is going on
EML-Sprachtechnologie bildet die
Grundlage für Anwendungen im
Contact-Center, mit denen Anrufe
kunden- und mitarbeiterfreundlicher
bearbeitet werden können.
Wörter verwenden, die möglicherweise von
der Spracherkennung noch nicht erfasst
sind (wie beispielsweise seltene Namen)
oder leicht verwechselt werden (Schreibvarianten wie Mayer, Meier; Markus, Marcus).
EML Speech technology is the basis
for applications in contact centers
which allow processing calls in both
a customer- and an employee-friendly way.
Die automatische Transkription von Contact-Center-Dialogen durch die EML-Spracherkennung bildet die Grundlage für eine
Vielzahl von Speech-Analytics-Anwendungen. Statt in einer Warteschleife zu hängen,
hinterlässt der Anrufer eine Sprachnachricht,
die automatisch nach Produkt- und Anfragekategorien, Schlüsselwörtern und anderen
Gesprächsmerkmalen klassifiziert wird. Diese wird an den am besten geeigneten Ansprechpartner weitergeleitet, der den Kunden persönlich zurückruft.
Eine statistische Auswertung von wichtigen
Begriffen und Kategorien (zum Beispiel
„Preisinformation“, „Störungsmeldung“) ermöglicht es, technische Probleme zeitnah
zu erkennen und zu beheben. Werden die
Transkriptionen archiviert, können die Mitarbeiter gleichzeitig auf unterschiedlichste Informationen zugreifen, zum Beispiel auf alle
Meldungen von Netzwerkstörungen in den
letzten 24 Stunden.
Wenn neben dem Text auch die Aussprache durch eine Suchmaschine indiziert wird,
kann der Anwender in der Suchanfrage auch
Die Qualitätssicherung und das Training von
Contact-Center-Mitarbeitern kann effizienter
gestaltet werden, indem Dialoge nach Gesprächsvorgaben analysiert und Abweichungen leichter identifiziert werden können.
The automatic transcription of contact-center
dialogs via EML speech recognition serves
as the basis for numerous speech analytics
applications. Instead of waiting in a loop,
customers can leave a voicemail which is
automatically analyzed in terms of product
and request categories, keywords and other
discourse features. The message is forwarded to the agent best qualified to handle the
request who then calls the customer back
personally.
Das EML bietet seine Speech-AnalyticsTechnologie für Deutsch und Englisch an.
Die südafrikanische Firma CSE Customer
Service Engineering führt nun erste Pilotuntersuchungen mit Kunden im englischsprachigen Raum durch. Im Laufe des Jahres
erweitert das EML sein Sprachenportfolio
um Italienisch und Spanisch.
Durch eine echtzeitnahe Transkription und
Analyse wird außerdem die Grundlage dafür
geschaffen, auch bei großen Gesprächsaufkommen noch schneller auf Kundenanfragen reagieren zu können.
Statistical analysis of important terms and
call categories (price information, error messages, etc.) enables the people in charge to
spot technical problems without delay and to
respond to them promptly. If the transcriptions are stored in a database, the agents
can access various kinds of information
at the same time, for example complaints
about network problems over the last 24
hours.
If a search engine is used to index not only
the text but also the pronunciation, the user
can also use words in his query that are
not currently covered by the speech recognition system (unusual names, etc.) or that
frequently get mixed up (e.g. variants of the
same name like Jon, John).
Quality management and the coaching of
contact-center agents can be more efficient
as calls can be analyzed according to dialog
guidelines, and deviations can be spotted
more easily.
The EML offers its speech analytics technology for German and English. The SouthAfrican company CSE Customer Service
Engineering is currently conducting initial
pilot studies with customers in the Englishspeaking world. In the course of this year,
EML will add Italian and Spanish to its language portfolio.
Kundenfreundlich:
Sprachanalyse im Contact-Center
Customer-friendly:
Speech analytics in contact-centers
A real-time transcription and analysis is the
basis for a fast response to customer requests, even at times of high call volumes.
7
Schnelle Titelsuche durch Sprache
Choosing your songs via speech
commands
8
Aus allen Quellen
From all sources
Vollautomatische Transkription von
Videoinhalten
Fully automatic transcription of video content (Media transcription for
video subtitles)
Ein Schwerpunkt der Aktivitäten des EML im
Jahr 2013 lag auf der Verbesserung bereits
verfügbarer Sprachkomponenten sowie der
Entwicklung neuer Sprachen.
Mit der Fertigstellung einer initialen Version für Französisch ist nun jede der sogenannten EFIGS-Sprachen (Englisch, French,
Italian, German, Spanish) abgedeckt. Dies
schließt die Unterstützung dieser Sprachen
im EML Language Model Workplace sowie
im EML Transcription Workplace mit ein.
Die Verbesserung der Modelle wurde primär durch Verwendung neuer Spracherkennungs-Algorithmen wie zum Beispiel DNNs
(deep neural networks) sowie zusätzlicher
Trainingsdaten erreicht. Die Weiterentwicklung der italienischen Sprachkomponenten
wurde in Zusammenarbeit mit dem Partner
Cedat85 realisiert.
Mit Arabisch wurde das Sprachportfolio des
EML um eine weitere wichtige Sprache ergänzt. Dies geschah durch die Zusammenarbeit mit dem Qatar Computing Research
Institute (QCRI), einer privaten Forschungseinrichtung, die an der Entwicklung von automatischen Sprachtranskriptionssystemen
für Sprachnachrichten, Sprachanalyse und
Medientranskription arbeitet. Die Integration von Arabisch in den Transkriptionsarbeitsplatz stellt in diesem Kontext eine wichtige Maßnahme zur Datenbeschaffung dar.
In 2013, the EML’s activities in this area
mainly focused on improving the existing
language components and developing new
languages.
With the completion of an initial version for
French, all of the so-called EFIGS languages (English, French, Italian, German, Spanish) are now covered. This includes the
support of these languages in the EML Language Model Workplace as well as in the
EML Transcription Workplace.
The improvement of the models was primarily achieved by the use of new speech recognition algorithms like DNNs (deep neural
networks) and additional training data. The
Italian language components were improved
further in collaboration with the partner Cedat85.
The EML language portfolio was extended
with the development of an Arabic version, another important language. This was
achieved in cooperation with the Qatar Computing Research Institute (QCRI), a private
research institute which works on the development of automatic speech transcription
systems for voicemails, language analysis
and media transcription. The integration of
Arabic into the transcription workplace is an
important measure for data collection in this
context.
Was Menschen
wirklich wollen
What the user
really wants
Sprachtechnologie für unkomplizierte Steuerung von Haustechnik
Interactive user interfaces through
speech technology
Heutzutage sind in vielen modernen Haushalten zahlreiche technische Geräte installiert – von Rollläden über die Beleuchtung
bis hin zur Klima- oder Alarmanlage. Diese
Geräte verfügen über Benutzerschnittstellen,
die manchmal einfach, manchmal aber auch
kompliziert zu bedienen sind und den Menschen oft überfordern. Moderne Bussysteme zur Gebäudesteuerung, wie beispielsweise DigitalStrom oder KNX/EIB, können
einzelne Geräte über einen zentralen Server
kontrollieren. Dadurch eröffnen sich neue
Möglichkeiten zur Steuerung, beispielsweise über ein Smartphone. Moderne Mobiltelefone sind ständig mit dem Internet verbunden und können deshalb als eine stets
verfügbare Fernbedienung genutzt werden.
Der Nutzer kann beispielsweise zuhause
die Heizungssteuerung programmieren oder
von unterwegs mit seinem Mobiltelefon die
Sauna vorheizen lassen, während er sich
auf dem Nachhauseweg befindet. Diese Infrastruktur erlaubt eine natürliche Steuerung
dieser Geräte durch Sprache. Die Spracheingabe kann direkt über das Mikrofon des
Mobiltelefons erfolgen.
In diesem Fall läuft die EML-Spracherkennung auf einem zentralen Server, der auch
die Gebäudesteuerung übernimmt. Gleichzeitig können die Mobilfunkgeräte innerhalb
des Hauses geortet werden und ermöglichen so intuitive Sprachbefehle.
Modern homes are equipped with a large
number of technical devices, from automatic
blinds and sophisticated lighting to air conditioning and alarm systems. These devices
have user interfaces that differ in ease of
handling but often tend to be too complex
for many people. In modern bus systems for
facility control like KNX/EIB or DigitalStrom,
many of the appliances are connected to a
home server, so they can be controlled centrally. This opens up new usage options, for
example, control via smart phone. Today’s
mobile phones are equipped with an internet
connection and can thus be used as a permanently available remote control unit.
At home, users can program the heating
system. On the way back home after work,
they can use a mobile phone to pre-heat
the sauna. With such an infrastructure, the
use of speech commands is both a feasible and natural way of controlling devices in
the house. The mobile phone records the
spoken commands via the microphone and
passes them on to a server. In this case, the
EML speech recognition unit is located on
the central server that is also in charge of
controlling the devices in the home. Mobile
phones can also be localized within a house.
In combination with spoken commands, this
significantly simplifies usability and enhances the user’s overall experience.
Licht an! Sprachsteuerung
für die Haustechnik
Lights on! Speech control
for home automation
9
Barrierefrei:
Sprachsteuerung
im Auto
Die Mobilcenter Zawatzky GmbH,
Meckesheim/Köln und das EML entwickeln zusammen eine Sprachsteuerung in Fahrzeugen für Körperbehinderte
Eine Kombination aus Mechatronik
und Sprachsteuerung
A combination of mechatronics
and speech control
Ein umgebautes Fahrzeug
für Körperbehinderte
Special car modified for physically
challenged people
10
Dank der heutigen Technik können Menschen mit einer körperlichen Behinderung ein
Auto selbstständig steuern. Mechatronische
Systeme ermöglichen es, die primären
Funktionen wie Lenken, Beschleunigen
oder Bremsen zu steuern. Wer jedoch den
Blinker setzen oder die Klimaanlage einstellen will, muss je nach Art der Behinderung
auf individuelle und dadurch kostenintensive Zusatzanfertigungen zurückgreifen.
Für solche so genannten Sekundär- und
Komfortfunktionen erweist sich die Sprache
als praktisches Steuerungsinstrument. Gemeinsam mit der Mobilcenter Zawatzky
GmbH, Meckesheim / Köln, entwickelte das
EML 2013 im Rahmen eines ZIM-Projekts
eine Sprachsteuerung für Sekundär- und
Komfortfunktionen. Die EML-Sprachtechnologen haben eine Spracherkennung
erarbeitet, die auch in Situationen mit hohem Geräuschpegel gesprochene Befehle
zur Steuerung der sogenannten Sekundärfunktionen wie Hupen, Blinken oder zur
Steuerung des Fernlichts mit einer großen
Sicherheit erkennt. Dieses System ist seit
Ende 2013 für Kunden der Firma Zawatzky
verfügbar. Anfang 2014 ging die Bestellung
für das erste Fahrzeug mit Sprachsteuerung
ein.
Zur Steuerung der Komfortfunktionen wie
Navigationssysteme, Wetterberichtsabfragen oder das Diktieren von Kurznachrichten
arbeitet das EML-Team daran, die Sprachsteuerung über das Internet zu ermöglichen.
Ein erster Prototyp der Sprachsteuerung
inklusive der Komfortfunktionen wurde im
Rahmen des Jahrestreffens der European
Mobility Group Ende 2013 präsentiert.
Barrier-free: In-car
speech control
transLectures: Hörsaal
ohne Sprachgrenzen
The Mobilcenter Zawatzky GmbH,
Meckesheim/Köln and EML jointly
develop a voice command system in
vehicles for the physically handicapped
Auf Video aufgezeichnete Vorlesungen und
Vorträge automatisch in Text umzuwandeln
und in verschiedene Sprachen zu übersetzen ist Ziel des europaweiten Projektes
„transLectures“. Durch die Transkription und
Übersetzung können die Inhalte leichter
durchsucht, kategorisiert und analysiert werden und stehen einem breiten (internationalen) Publikum zur Verfügung, insbesondere
Menschen mit Behinderungen.
Ein erster Prototyp wurde bereits erstellt.
Darin können beispielsweise für englische
Videos englische, französische, deutsche,
spanische und slowenische Untertitel
ausgewählt werden. Ferner werden mit dem
Prototypen verschiedene Möglichkeiten zur
intelligenten Interaktion evaluiert: So wählt
das System zum Beispiel Wörter mit geringem Konfidenzwert aus - die also nicht die
„erste Wahl“ bei der Verschriftung sind - und
bietet sie den Nutzern zur Korrektur an. Auf
diese Weise können potentiell fehlerhafte
Stellen mit minimalem Aufwand korrigiert
werden.
Das EML stellt in „transLectures“ die Infrastruktur zur automatischen Transkription
der Videos aus den Multimediaplattformen
VideoLectures.NET und poliMedia zur Verfügung. Um die Spracherkennung weiter zu
verbessern, werden am EML Methoden zur
schnelleren und automatischen Anpassung
an den Videoinhalt erforscht und integriert.
Außerdem wurden Sprachtechnologien der
RWTH Aachen in die „EML Transcription
Platform“ integriert und für die Projektanforderungen angepasst, zum Beispiel durch
Optimierung der Erkennungsgeschwindigkeit und Speicheranforderungen.
Die EML-Sprachtechnologen entwickeln
überdies Sprachmodelle für Deutsch, Englisch und Spanisch.
Partner des von der EU geförderten Projekts sind neben dem EML Universitäten,
Forschungsinstitute und Firmen aus Spanien, Frankreich, Slowenien, England und
Deutschland. „transLectures“ startete im
November 2011 und endet im Oktober 2014.
Today’s technology allows physically handicapped people to drive a car. Due to mechatronic systems, they can control the primary
functions like steering, accelerating or braking. However, using indicators or adjusting
the air conditioner is not as easy. Depending on the type of disability, the driver therefore needs custom-made and thus costly
solutions. Language has proven to be a
practical management tool for the so-called
secondary and comfort functions. In cooperation with the Mobilcenter Zawatzky GmbH,
Meckesheim/Köln, the EML developed a
voice command function for secondary and
comfort functions in the framework of a
“Central Innovation Program SME” project
in 2013. The EML language technologists
developed a speech recognition tool that is
reliable in recognizing spoken commands
for controlling the so-called secondary functions like sounding the horn, indicating and
controlling the high beam, even in situations
with a high noise level. Since the end of
2013, this system is available for customers
of the company Zawatzky. At the beginning
of 2014, the company received the first order
for a vehicle with voice command.
Enabling the use of voice commands over
the internet for controlling comfort functions
like navigation, weather report queries or
dictation of short messages is an important
item on EML’
s agenda. A first prototype of the system, including the comfort functions, was presented at the annual meeting of the European
Mobility Group in late 2013.
transLectures:
The omni-lingual
lecture hall
The transcription and translation of educational video lectures provided in online repositories via the internet is the aim of the
Europe-wide project ‘transLectures’. Content thus becomes easier searchable, classifiable and analyzable. Furthermore, it is
accessible to a broad international audience,
as well as to people with disabilities.
In a first prototype, English, French, German, Spanish and Slovenian subtitles can
be selected for English videos for example.
Furthermore, the prototype allows the evaluation of different strategies for intelligent
interaction: the system selects words with a
low confidence value – i.e. words that are
not the “first choice” for transcription – and
gives the user the option to correct them. In
this way, potentially incorrect parts of the
transcription can be corrected with a minimum effort.
EML’s contribution to “transLectures” is the
provision of an infrastructure for the automatic transcription of video lectures from
the VideoLectures.NET and poliMedia web
portals. To improve speech recognition, EML
focuses on developing methods for automatic and fast adaption of language models to
the video content. In addition, speech technology of RWTH Aachen was integrated into
the “EML Transcription Platform” and adapted to meet the project requirements like recognition speed and memory requirements.
Besides that, EML speech technology engineers are developing language models for
German, English and Spanish.
Alongside EML, the partners of the EU-funded project are universities, research institutes and companies from Spain, France, Slovenia, the UK and Germany. ”transLectures“
started in November 2011 and proceeds till
October 2014.
Vorlesungen und Vorträge sollen
automatisch verschriftet werden
Lectures and talks will be
transcribed automatically
11
Partner-Netzwerk
Partner network
Die EML European Media Laboratory GmbH verfügt über ein ständig wachsendes, internationales Netzwerk von Partnern in den Bereichen Sprachnachrichten, Sprachsuche, ortsbasierte
Dienste, Inhaltsanalyse, Medientranskription und „Assisted Living“.
Die Zusammenarbeit reicht vom Einsatz der EML-Sprachtechnologie zur Erweiterung von Mobilfunkdiensten bis hin zu Medientranskriptionen, zum Beispiel von Gerichtsverhandlungen oder
Fernsehsendungen.
International agierende Partner nutzen dabei die Möglichkeit, die EML-Lösungen auch in andere
Sprachen zu übertragen.
The EML European Media Laboratory GmbH is part of a constantly growing international network
of partners in the fields of voice messaging, voice search, location-based service, speech analytics, media transcription, and assisted living.
Collaborations range from the use of EML speech technology to enhance services in mobile telephony to media transcription of court proceedings or television broadcasts.
Partners operating on an international scale use the collaboration opportunity to transfer EML
solutions into further languages.
Enrico Giannotti, stv. Geschäftsführer, Cedat 85 srl, Rom/Italien:
„Als führender italienischer Anbieter von Sprachdiensten auf der Basis innovativer Technologien
erstellen wir Systeme für die automatische Transkription von Fernsehsendungen, Parlamentsdebatten und Gerichtsverhandlungen. Durch die Partnerschaft mit EML konnten wir ein Transkriptionsmodell für die italienische Sprache entwickeln und dieses in unsere existierende Transkriptionsumgebung integrieren.“
Helmut an de Meulen, Geschäftsführer Materna GmbH
„Wir als Telekommunikationsspezialisten werden oft gefragt: Wie kann ich das Vertrauen meiner
Kunden gewinnen, wenn ich keinen persönlichen Kontakt habe? Wir empfehlen: Setzen Sie auf
intelligente Sprachanwendungen! Aus langjähriger Erfahrung mit Sprach-Mehrwertdiensten wissen wir, wie effektiv und kostenoptimal dieser Kanal wirkt. Gemeinsam mit unserem Partner EML
bieten wir alle technischen Voraussetzungen, um zum Beispiel den innovativen Voice-to-TextDienst am Markt erfolgreich zu positionieren.“
Dr. Ahmed Elmagarmid, Geschäftsführer, QCRI, Doha / Katar
„Unsere Zusammenarbeit mit EML ist eine optimale Verbindung von Fachwissen in der sprachtechnologischen Forschung. Das Ergebnis unserer Kooperation eröffnet zahlreiche Möglichkeiten für die Zukunft der Kommunikation und des Informationsaustauschs. Wir freuen uns darauf,
unsere Zusammenarbeit mit EML weiter auszubauen.“
Tim Mois und Thilo Salmon, Geschäftsführer, sipgate GmbH:
„Die sipgate GmbH bietet Mobilfunk für Unternehmen und mit der Marke simquadrat ein Mobilfunkprodukt für Privatkunden. Mit mehreren hunderttausend Kunden in Deutschland und Großbritannien sind wir zudem einer der größten VoIP-Anbieter Europas und bieten seit 2004 CloudTelefonielösungen für Privatkunden und Firmen. Durch die EML-Sprachtechnologie können wir
unseren Kunden in Deutschland einen besonderen Voicemail-Service bieten. Die Transkriptionsergebnisse haben uns sehr überzeugt.“
12
Enrico Giannotti, Deputy General Manager, Cedat 85 srl, Rome/ Italy:
“We are a leading supplier of speech and language services based on innovative technologies.
We create systems for the automatic transcription of television and radio programs, parliamentary
debates, court proceedings, call center, mobile applications. Thanks to our partnership with EML
we have been able to develop a very performing automatic speech recognition solution for Italian
and other languages to integrate it into our existing transcription environment and innovative
solutions.”
Helmut an de Meulen, Managing Director of Materna GmbH
“As a telecommunications specialist we are often asked: “How can I gain the trust of my customers
if it’s not possible for me to have personal contact with them?” Our recommendation in that case
is: Make use of intelligent speech applications! From our long-term experience with value-added
voice services we know that this channel operates very efficiently and at optimal costs. Together
with our partner EML we meet all the technical requirements to successfully position innovations
like, for example, Voice-to-Text service in the market.”
Dr. Ahmed Elmagarmid, Executive Director, QCRI, Doha / Qatar
“Our collaboration with EML is an ideal union of expertise in language technology research. The
result of our cooperation opens up numerous possibilities for the future of communication enabling and information sharing. We look forward to further strengthening our relationship with EML.”
Tim Mois und Thilo Salmon, CEOs, sipgate GmbH:
“The sipgate GmbH offers mobile communications for businesses, and our brand simquadrat is
a mobile communication product for private customers. With several hundreds of thousands of
customers in Germany and the UK, we are one of the biggest VoIP providers in Europe, and since
2004 we offer cloud telephony solutions for private customers and companies. Thanks to the EML
language technology, we are able to offer our customers in Germany a special voicemail service.
The transcription results really convinced us.”
13
EML Live
Sprachtechnologie überzeugt immer dann
besonders, wenn sie im direkten Kontakt
demonstriert wird, „live“ und ohne doppelten Boden. Deshalb präsentieren die
EML-Sprachtechnologen ihre Anwendungen gerne bei Veranstaltungen, bei denen
die Besucher selbst die Möglichkeit haben,
Spracherkennung und -analyse zu testen.
Das EML nimmt 2014 an zwei großen Messen teil: an der CCW (vormals: CallCenterWorld) in Berlin und dem GSMA Mobile
World Congress in Barcelona. Wie in den
Jahren zuvor ist das EML in Berlin mit einem
eigenen Stand auf der CCW vertreten. Mit
fast 8000 Besuchern ist die CCW die größte
europäische Messe für Call Center und Customer Management. Dort stellt das EML vom
18. bis 20.02.2014 seine „Speech Analytics
Platform“ vor und zeigt seinen Voicemail2Text-Service. Die Messebesucher können
testen, wie ihre Anrufe durch automatische
Transkription zu Text werden.
Am GSMA Mobile World Congress in Barcelona vom 24. bis 27. Februar 2014 beteiligt
sich das EML am Stand des Partners Materna GmbH. Der Mobile World Congress
ist mit mehr als 70.000 Besuchern aus über
200 Ländern das größte Branchentreffen
der Mobilfunk- und Internetindustrie. Dort
präsentieren die Heidelberger Sprachtechnologen ihren Voicemail2text Service und
ihre Voicemail2Text-App für die AndroidPlattform für die Sprachen Deutsch, Englisch und Spanisch.
Zur Unterstützung der „Live“-Aktivitäten bespielt das EML auch interaktive Social Media
Kanäle und ist auf Twitter, Facebook, Google+ und Youtube zu finden.
14
EML Live
Language technology is especially convincing if people can experience it first-hand,
“live” and if there is no safety net. Therefore, the EML speech technologists like to
present their applications at events where
visitors have the opportunity to test speech
recognition and analysis.
In 2014, EML will take part in two major
exhibitions: the CCW (formerly CallCenterWorld) in Berlin and the GSMA Mobile World
Congress in Barcelona. As in previous years,
EML will have its own booth at the CCW in
Berlin. With nearly 8,000 visitors, the CCW
is the largest European fair for call center
and customer management. From February 18-20 2014, EML will present its “Speech
analytics Platform” and its “Voicemail2Text
service” there. Visitors can watch their
calls being turned into text via automatic
transcription.
At the GSMA Mobile World Congress in Barcelona from February 24- 27 2014, EML will
be hosted at the stand of its partner Materna
GmbH. With more than 70,000 visitors from
more than 200 countries, the Mobile World
Congress is one of the largest industry gatherings of the mobile communications and
internet industry. The speech technologists
from Heidelberg will present their Voicemail2Text Service and the Voicemail2Text App
for the android platform for the languages
German, English and Spanish.
To support “live” activities, the EML also
makes use of interactive social media channels and can be found on Twitter, Facebook,
Google+ and Youtube.
Das Unternehmen
The Company
Die EML European Media Laboratory GmbH
ist ein privates IT-Unternehmen mit Sitz in
Heidelberg, das von SAP-Mitbegründer
Klaus Tschira im Jahr 1997 ins Leben gerufen wurde. Sein Auftrag: nicht beim erfolgreichen „proof of concept“ aufzuhören, sondern
den ganzen Weg bis hin zum Produkt zu gehen. Diese Strecke legten EML Mitarbeiter
in den ersten zehn Jahren gleich zweimal
zurück: Mit der Gründung der tesa scribos
GmbH, die heute Sicherheitshologramme
auf Basis von Tesafilm produziert, und mit
der Heidelberg Mobil International GmbH,
die mobile Portale für Messen, Unternehmen und Städte entwickelt.
Seit 2007 entwickelt das EML Software
und neue Methoden im Bereich der automatischen Sprachverarbeitung. Erfahrene
Sprachtechnologen und Informatiker arbeiten mit automatischer Spracherkennung
daran, gesprochene Sprache in Text umzuwandeln – die Basis für eine Reihe von
Produkten und Lösungen für Call-Center,
Telefonanbieter, Fernsehsender oder Gebäudesteuerung.
Sitz des EML ist die Villa Reiner am SchlossWolfsbrunnenweg 35. Geschäftsführer des
Unternehmens sind Dr. h.c. Dr. E.h. Klaus
Tschira und Prof. Dr. Dr. h.c. Andreas Reuter.
The EML European Media Laboratory
GmbH is a private IT company located in
Heidelberg, Germany. It was established in
1997 by Klaus Tschira, one of the founders
of the SAP AG. Its mission is to go beyond
the ‘proof of concept’ stage and to come up
with product offerings. In the first ten years,
the EML team achieved this ambitious goal
already twice with the establishment of Heidelberg Mobil International GmbH and tesa
scribos GmbH. Heidelberg Mobil International GmbH develops mobile portals for trade
fairs, companies, and city authorities, and
tesa scribos GmbH produces security holograms using sticky tape.
Since 2007, EML has been focusing its
research and development work on manmachine interaction and automatic speech
processing. Expert language technologists
and IT specialists use automatic speech recognition to convert spoken language into
text. This is the basis for a range of products
and solutions for call centers, telephone providers, broadcasters, and automatic control
systems for buildings.
The EML is located at the Villa Reiner,
Schloss-Wolfsbrunnenweg 35 in Heidelberg,
Germany. Managing directors are Dr. h.c. Dr.
E.h. Klaus Tschira and Prof. Dr. Dr. h.c. Andreas Reuter.
Dr. h.c. Dr. e.H. Klaus Tschira
Gründer und Geschäftsführer
des EML
Founder and managing director
of EML
15
EXPERIENCE IT!
INTUITIVE TECHNOLOGY
www.eml.org
Twitter: @EMLvoice
Facebook: /EMLEuropeanMediaLaboratory
Youtube: /EMLVoiceMessaging
Google+: /+EMLVoicemailService
Impressum | Imprint
EML European Media Laboratory GmbH
Villa Reiner | Schloss-Wolfsbrunnenweg 35
D-69118 Heidelberg
Kontakt | Contact
Dr. Siegfried Kunzmann | R & D Manager
Phone: +49-6221-533206 | Fax: +49-6221-533298
[email protected]
Managing Partner (geschäftsführender Gesellschafter)
Dr. h.c. Klaus Tschira
Scientific and Managing Director (Geschäftsführer)
Prof. Dr.-Ing. Dr. h.c. Andreas Reuter
HRB 335719, Amtsgericht Mannheim
All rights reserved.
© European Media Laboratory 2014

eml voice - EML European Media Laboratory GmbH

Transcrição

Documentos relacionados

Robbie der Empfangsroboter - Projekt Labor

Johannes Luig

EML 200 Pure HAVER - Particle Analysis

Sprachbedienung im KFZ – Eine Erfolgsgeschichte

Die Löwenbraut

Die Angst vor dem Stottern und ihre Ursachen

Der Leiermann

Nach der Geburt ihres Sohnes

- TUGraz digLIB

the king`s speech - Theatergastspiele Kempf GmbH