eml voice - EML European Media Laboratory GmbH
Transcrição
eml voice - EML European Media Laboratory GmbH
EML VOICE wird ext ges T n sa te mes rich ach cemail n h i ac of vo Spr aus cription e i t: W c trans unf ti Zuk utoma r e a d : r rte future two akt ean x of the b f ont u enk enters Anr mailbo d n Ku tact-c The n e im ogi s in co l o chn lication e t ach ly app Spr d ird: r-frien w en tome h c s u ro esp ics: c as g Analyt w , en sen peech halt Wis S eoin btitles d i V su von ideo tion n for v p i r o k ripti ans e Tr transc h c a s i ati : med tom s llau source o V : l l n a lle rom o F Que Aut len l a g im ontrol n u Aus er hc eec steu ach -car sp r p i: S ee: in fr efre rier arrierr a B B 4 6 8 AUSGABE / ISSUE 2014 SPEECH TECHNOLOGY TODAY Dr. Siegfried Kunzmann Leiter F & E R & D Manager EML European Media Laboratory 2 „Wie“ und „was“ wir sprechen ”How“ and „what” people speak Sprachtechnologie für bessere Kommunikation Speech technology for a better communication Gesprochene Sprache als eines der wichtigsten menschlichen Kommunikationsmittel und automatische Sprachverarbeitung werden mehr und mehr genutzt. Das zeigt auch der „Gartner-Hype Cycle“, ein verlässliches Trendbarometer für die Entwicklung von Technologien. Diese Kurve zeigt für das Jahr 2014, dass die Spracherkennung nach dreißig Jahren Forschung und Entwicklung das sogenannte „Plateau der Produktivität“ erreicht hat. Das betrifft einige Anwendungsszenarien, zum Beispiel die Navigation mit Sprache, Telefondialogsysteme oder das Diktieren am Computer. Andere Gebiete der Sprachtechnologie sind auf diesem Plateau noch nicht angekommen. Sie gehören aber laut Gartner-Kurve zu den wichtigen Trends, die das Verhältnis von Mensch und Maschine in den nächsten Jahren verändern werden. Dazu zählen etwa die Sprache-zu-Sprache-Übersetzung und die automatische Analyse der Kommunikation von Mensch zu Mensch. Das ist nicht weiter verwunderlich, denn durch die rasante Verbreitung von Smartphones und Tablet-Computern in der Geschäftswelt und der privaten Nutzung rücken Sprachanwendungen in der mobilen Kommunikation und Sprachanalyse immer stärker in den Fokus. Internet- und Telefonverbindungen werden billiger, serverbasierte Spracherkennungssysteme erlauben die Nutzung neuester Algorithmen bei der Erkennung. Und die Anwendungen ermöglichen es, viele Tausend Stunden gesprochene Sprache zu sammeln, um damit die Erkennungsleistung zu verbessern. Entscheidend sind bei allen Sprachanwendungen sprecherunabhängige Erkennungssysteme mit hoher Qualität. Dabei kommt es nicht darauf an, die Stimme einzelner Sprecher zu analysieren, sondern aus den Stimmen vieler Sprecher statistische Parameter abzuleiten. Damit können die Systeme lernen, „wie“ Menschen sprechen. Für die erfolgreiche Umsetzung sprachlicher Kommunikation in Schrift müssen sie aber auch lernen, „was“ Menschen in bestimmten Situationen sagen. Hier helfen große Textmengen aus den jeweiligen Anwendungsbereichen, zum Beispiel aktuelle Nachrichten oder Suchanfragen. Je besser man die Spracherkennung auf die entsprechende Anwendung optimiert, desto höher sind die Erkennungsraten und damit der Nutzen für den Menschen. Qualitativ hochwertige, sprecherunabhängige Spracherkennungssysteme können heutzutage sowohl für die Verschriftung von Nachrichtensendungen oder Parlamentsdebatten als auch für die Verarbeitung von Kunde-Agent-Gesprächen im Contact-Center oder bei der Verschriftung von Sprachnachrichten auf Anrufbeantwortern eingesetzt werden. Für die nächsten Jahre ergeben sich positive Aussichten für die Sprachtechnologie. Sie kann in vielfältiger Weise eingesetzt werden, um uns zu helfen, unsere Kommunikation mit anderen Menschen effizienter zu gestalten. Ein Beispiel dafür ist die Verschriftung von Sprachnachrichten: Wer seine Mailbox nicht abhören muss, sondern auf einen Blick sieht, wer ihm was mitzuteilen hatte, gewinnt schlicht und einfach Zeit. Hier gilt im wahren Sinne des Sprichwortes: Wer lesen kann, ist klar im Vorteil! Spoken language is one of the most important means of human communication, and automatic language processing is used more and more frequently. The “Gartner-Hype Cycle,” a reliable trend barometer for the development of technologies, illustrates this. The curve shows that speech recognition has reached the “Plateau of Productivity” in 2014, after thirty years of research and development. This applies to several application scenarios, for example language-based navigation, telephone-based speech dialog systems or dictation on a computer. Other areas of speech technology have not reached this plateau yet. According to the Gartner curve, however, they belong to the most important trends that will change the relationship between humans and machines over the next few years. Among them are speech-to-speech translation and the automatic analysis of communication from person to person. This is not surprising as the rapid dissemination of smartphones and tablet computers in the business and private world draw more and more attention to speech applications in mobile communication and to speech analysis. Internet and telephone connections are cheaper, server-based speech recognition systems allow for the use of new algorithms in recognition, and the applications enable the collection of thousands of hours of spoken language to improve the recognition performance. High-quality speaker-independent recognition systems are a decisive factor for all speech applications. The aim is not to analyze the voices of individual speakers, but to derive statistical parameters from the voices of a variety of speakers. This helps the systems to learn “how” people speak. In order to guarantee a successful conversion of spoken communication into text, however, they also need to learn “what” people say in specific situations. Large amounts of text from the respective application areas, like current news or search queries, are helpful tools to be used in this case. The better speech recognition is adjusted to the corresponding application, the higher the recognition rates are and the greater the benefit for the people. High-quality, speaker-independent speech recognition systems are used today for the transcription of news broadcasts or parliamentary debates and for the processing of customer-agent conversations in contact centers or voicemails transcriptions on answering machines. The outlook for speech technology is very positive. It can be used in various ways to help us make our communication with other people more efficient. An example for this is voicemail transcription: if you do not have to listen to your mailbox, but see at a glance who wanted to know or do what, you simply win time. One can therefore say: the trend is your friend. Sprachtechnologie kann uns helfen, unsere Kommunikation mit anderen Menschen effizienter zu gestalten Speech technology can help us make our communication with other people more efficient 3 Der EML Voicemail2Text Service: Alle Sprachnachrichten auf einen Blick That´s the EML Voicemail2Text Service: The user can see at a glance what the caller wanted to tell her Der Anrufbeantworter der Zukunft The answering machine of the future Sprechen statt tippen – auch unterwegs Don’t type: speak – even on the road Eine EML-Anwendung sorgt vollautomatisch dafür, dass aus Sprachnachrichten Text wird An EML application automatically turns voicemail into text Mobile Plattformen zur Spracherkennung nutzen? Mit der EML-Technologie ist das kein Problem. Using mobile platforms for speech recognition? No problem with EML technology Der Trend hin zu Smartphones und Tablets hat die Spracherkennung in den Fokus der Nutzer gerückt. Das EML unterstützt diesen Trend durch Lösungen für mobile Betriebssysteme, die einfach zu integrieren sind. Der Nutzer erwartet auf mobilen Endgeräten eine schnelle und korrekte Reaktion auf seine Äußerungen. Deshalb stellt die EML-Infrastruktur einen „Streaming“-Modus bereit. Dieser erlaubt es, Sprache in Text umzuwandeln - in einer für den Nutzer angemessen erscheinenden Reaktionszeit. Noch während der Nutzer spricht, kann er auf dem Display seines Geräts erste Ergebnisse der Spracherkennung sehen. Das EML stellt außerdem für seine Partnerunternehmen einheitliche Schnittstellen und Bibliotheken für verschiedene mobile Betriebssysteme bereit, damit diese ihren EML Transcription Server schnell und einfach in die eigenen Apps integrieren können. Mit der EML Voicemail App ist der Service leicht und komfortabel nutzbar: Man kann schnell und einfach auf die eingehenden Voicemails eine Antwort per E-Mail diktieren. Die App ist kostenfrei im Google Play Store auf Deutsch verfügbar und wird derzeit auch für Englisch und Spanisch entwickelt. Sie basiert auf EML-Technologien und greift auf die am EML entwickelte Server-Infrastruktur zurück. The trend towards smartphones and tablets has put speech recognition in the focus of users. EML supports this trend by offering solutions for mobile operating systems that are easy to integrate. Users expect quick and correct responses to their remarks on mobile devices. Therefore, the EML infrastructure offers a “streaming” mode. This allows a conversion of speech into text – in a reaction time that the user deems appropriate. While users speak, they can already see first results of the speech recognition on their displays. Furthermore, the EML provides standard interfaces and libraries for various mobile operating systems for its partner companies, so that they can integrate the EML transcription server fast and easily into their own Apps. The service can be used easily and comfortably with the EML Voicemail App: Dictating an answer to incoming voicemails via e-mail is fast and simple. The App in German is available free of cost in the Google Play Store, and is currently being developed for English and Spanish. It is based on EML technologies and draws on the server infrastructure that was developed at the EML. Ein zentrales Einsatzgebiet der EMLSprachtechnologie ist die Umwandlung von Sprachnachrichten in Text. Mit Hilfe des vom EML entwickelten Voicemail2Text Service kann diese Technologie bereits heute von jedem genutzt werden. Die meisten modernen Anrufbeantworter – sowohl in einer Haustelefonanlage als auch im Mobiltelefon – besitzen mittlerweile die Funktion, aufgezeichnete Nachrichten als E-Mail weiterzuleiten. Wird diese E-Mail mit der angehängten Sprachdatei an den EML Voicemail2Text Service geschickt, bekommt der Nutzer kurze Zeit später den erkannten Text als SMS oder E-Mail zugeschickt. Er erkennt so auf einen Blick, was ihm der Anrufer mitteilen wollte, und kann, wenn nötig, schnell darauf reagieren. Die zu diesem Service gehörende App erlaubt es dem Nutzer, sich bequem einen Überblick über alle Sprachnachrichten zu verschaffen. Er wird informiert, sobald weitere Sprachnachrichten eintreffen und kann direkt darauf reagieren, indem er durch die App den Anrufenden direkt zurückruft oder eine Antwort in Form einer E-Mail diktiert. Der Service und die EML Voicemail App starteten Ende 2013 und sind für Privatpersonen kostenfrei. A key application area of the EML speech technology is the conversion of voicemail into text. With the Voicemail2Text Service, which was developed by EML, this technology can already be used by the general public. Most modern answering machines – of both house telephones and mobile phones – are equipped with a function that forwards recorded messages as e-mail. If such an e-mail with the attached voice file is sent to the EML Voicemail2Text Service, users will shortly thereafter get the detected text as a short message or e-mail. Therefore, they can see at a glance what the caller wanted to tell them, and can react promptly if necessary. The corresponding App to this service allows users an easy overview of all voicemails. They get a notification as soon as other voicemails arrive, and can respond to them immediately by using the App to call back the caller directly or dictate an answer in the form of an e-mail. The service and the EML Voicemail App were launched in late 2013 and are free for private use. Die EML Voicemail App für Android - kostenlos im Google Playstore The EML Voicemail App for Android - available free of charge in the Google Playstore EML Voicemail App for Android 4 5 Wissen, was gesprochen wird Automatische Verschriftung eine Erleichterung für Kunden und Mitarbeiter Automatic transcription makes life easier for customers and employees 6 To know what is going on EML-Sprachtechnologie bildet die Grundlage für Anwendungen im Contact-Center, mit denen Anrufe kunden- und mitarbeiterfreundlicher bearbeitet werden können. Wörter verwenden, die möglicherweise von der Spracherkennung noch nicht erfasst sind (wie beispielsweise seltene Namen) oder leicht verwechselt werden (Schreibvarianten wie Mayer, Meier; Markus, Marcus). EML Speech technology is the basis for applications in contact centers which allow processing calls in both a customer- and an employee-friendly way. Die automatische Transkription von Contact-Center-Dialogen durch die EML-Spracherkennung bildet die Grundlage für eine Vielzahl von Speech-Analytics-Anwendungen. Statt in einer Warteschleife zu hängen, hinterlässt der Anrufer eine Sprachnachricht, die automatisch nach Produkt- und Anfragekategorien, Schlüsselwörtern und anderen Gesprächsmerkmalen klassifiziert wird. Diese wird an den am besten geeigneten Ansprechpartner weitergeleitet, der den Kunden persönlich zurückruft. Eine statistische Auswertung von wichtigen Begriffen und Kategorien (zum Beispiel „Preisinformation“, „Störungsmeldung“) ermöglicht es, technische Probleme zeitnah zu erkennen und zu beheben. Werden die Transkriptionen archiviert, können die Mitarbeiter gleichzeitig auf unterschiedlichste Informationen zugreifen, zum Beispiel auf alle Meldungen von Netzwerkstörungen in den letzten 24 Stunden. Wenn neben dem Text auch die Aussprache durch eine Suchmaschine indiziert wird, kann der Anwender in der Suchanfrage auch Die Qualitätssicherung und das Training von Contact-Center-Mitarbeitern kann effizienter gestaltet werden, indem Dialoge nach Gesprächsvorgaben analysiert und Abweichungen leichter identifiziert werden können. The automatic transcription of contact-center dialogs via EML speech recognition serves as the basis for numerous speech analytics applications. Instead of waiting in a loop, customers can leave a voicemail which is automatically analyzed in terms of product and request categories, keywords and other discourse features. The message is forwarded to the agent best qualified to handle the request who then calls the customer back personally. Das EML bietet seine Speech-AnalyticsTechnologie für Deutsch und Englisch an. Die südafrikanische Firma CSE Customer Service Engineering führt nun erste Pilotuntersuchungen mit Kunden im englischsprachigen Raum durch. Im Laufe des Jahres erweitert das EML sein Sprachenportfolio um Italienisch und Spanisch. Durch eine echtzeitnahe Transkription und Analyse wird außerdem die Grundlage dafür geschaffen, auch bei großen Gesprächsaufkommen noch schneller auf Kundenanfragen reagieren zu können. Statistical analysis of important terms and call categories (price information, error messages, etc.) enables the people in charge to spot technical problems without delay and to respond to them promptly. If the transcriptions are stored in a database, the agents can access various kinds of information at the same time, for example complaints about network problems over the last 24 hours. If a search engine is used to index not only the text but also the pronunciation, the user can also use words in his query that are not currently covered by the speech recognition system (unusual names, etc.) or that frequently get mixed up (e.g. variants of the same name like Jon, John). Quality management and the coaching of contact-center agents can be more efficient as calls can be analyzed according to dialog guidelines, and deviations can be spotted more easily. The EML offers its speech analytics technology for German and English. The SouthAfrican company CSE Customer Service Engineering is currently conducting initial pilot studies with customers in the Englishspeaking world. In the course of this year, EML will add Italian and Spanish to its language portfolio. Kundenfreundlich: Sprachanalyse im Contact-Center Customer-friendly: Speech analytics in contact-centers A real-time transcription and analysis is the basis for a fast response to customer requests, even at times of high call volumes. 7 Schnelle Titelsuche durch Sprache Choosing your songs via speech commands 8 Aus allen Quellen From all sources Vollautomatische Transkription von Videoinhalten Fully automatic transcription of video content (Media transcription for video subtitles) Ein Schwerpunkt der Aktivitäten des EML im Jahr 2013 lag auf der Verbesserung bereits verfügbarer Sprachkomponenten sowie der Entwicklung neuer Sprachen. Mit der Fertigstellung einer initialen Version für Französisch ist nun jede der sogenannten EFIGS-Sprachen (Englisch, French, Italian, German, Spanish) abgedeckt. Dies schließt die Unterstützung dieser Sprachen im EML Language Model Workplace sowie im EML Transcription Workplace mit ein. Die Verbesserung der Modelle wurde primär durch Verwendung neuer Spracherkennungs-Algorithmen wie zum Beispiel DNNs (deep neural networks) sowie zusätzlicher Trainingsdaten erreicht. Die Weiterentwicklung der italienischen Sprachkomponenten wurde in Zusammenarbeit mit dem Partner Cedat85 realisiert. Mit Arabisch wurde das Sprachportfolio des EML um eine weitere wichtige Sprache ergänzt. Dies geschah durch die Zusammenarbeit mit dem Qatar Computing Research Institute (QCRI), einer privaten Forschungseinrichtung, die an der Entwicklung von automatischen Sprachtranskriptionssystemen für Sprachnachrichten, Sprachanalyse und Medientranskription arbeitet. Die Integration von Arabisch in den Transkriptionsarbeitsplatz stellt in diesem Kontext eine wichtige Maßnahme zur Datenbeschaffung dar. In 2013, the EML’s activities in this area mainly focused on improving the existing language components and developing new languages. With the completion of an initial version for French, all of the so-called EFIGS languages (English, French, Italian, German, Spanish) are now covered. This includes the support of these languages in the EML Language Model Workplace as well as in the EML Transcription Workplace. The improvement of the models was primarily achieved by the use of new speech recognition algorithms like DNNs (deep neural networks) and additional training data. The Italian language components were improved further in collaboration with the partner Cedat85. The EML language portfolio was extended with the development of an Arabic version, another important language. This was achieved in cooperation with the Qatar Computing Research Institute (QCRI), a private research institute which works on the development of automatic speech transcription systems for voicemails, language analysis and media transcription. The integration of Arabic into the transcription workplace is an important measure for data collection in this context. Was Menschen wirklich wollen What the user really wants Sprachtechnologie für unkomplizierte Steuerung von Haustechnik Interactive user interfaces through speech technology Heutzutage sind in vielen modernen Haushalten zahlreiche technische Geräte installiert – von Rollläden über die Beleuchtung bis hin zur Klima- oder Alarmanlage. Diese Geräte verfügen über Benutzerschnittstellen, die manchmal einfach, manchmal aber auch kompliziert zu bedienen sind und den Menschen oft überfordern. Moderne Bussysteme zur Gebäudesteuerung, wie beispielsweise DigitalStrom oder KNX/EIB, können einzelne Geräte über einen zentralen Server kontrollieren. Dadurch eröffnen sich neue Möglichkeiten zur Steuerung, beispielsweise über ein Smartphone. Moderne Mobiltelefone sind ständig mit dem Internet verbunden und können deshalb als eine stets verfügbare Fernbedienung genutzt werden. Der Nutzer kann beispielsweise zuhause die Heizungssteuerung programmieren oder von unterwegs mit seinem Mobiltelefon die Sauna vorheizen lassen, während er sich auf dem Nachhauseweg befindet. Diese Infrastruktur erlaubt eine natürliche Steuerung dieser Geräte durch Sprache. Die Spracheingabe kann direkt über das Mikrofon des Mobiltelefons erfolgen. In diesem Fall läuft die EML-Spracherkennung auf einem zentralen Server, der auch die Gebäudesteuerung übernimmt. Gleichzeitig können die Mobilfunkgeräte innerhalb des Hauses geortet werden und ermöglichen so intuitive Sprachbefehle. Modern homes are equipped with a large number of technical devices, from automatic blinds and sophisticated lighting to air conditioning and alarm systems. These devices have user interfaces that differ in ease of handling but often tend to be too complex for many people. In modern bus systems for facility control like KNX/EIB or DigitalStrom, many of the appliances are connected to a home server, so they can be controlled centrally. This opens up new usage options, for example, control via smart phone. Today’s mobile phones are equipped with an internet connection and can thus be used as a permanently available remote control unit. At home, users can program the heating system. On the way back home after work, they can use a mobile phone to pre-heat the sauna. With such an infrastructure, the use of speech commands is both a feasible and natural way of controlling devices in the house. The mobile phone records the spoken commands via the microphone and passes them on to a server. In this case, the EML speech recognition unit is located on the central server that is also in charge of controlling the devices in the home. Mobile phones can also be localized within a house. In combination with spoken commands, this significantly simplifies usability and enhances the user’s overall experience. Licht an! Sprachsteuerung für die Haustechnik Lights on! Speech control for home automation 9 Barrierefrei: Sprachsteuerung im Auto Die Mobilcenter Zawatzky GmbH, Meckesheim/Köln und das EML entwickeln zusammen eine Sprachsteuerung in Fahrzeugen für Körperbehinderte Eine Kombination aus Mechatronik und Sprachsteuerung A combination of mechatronics and speech control Ein umgebautes Fahrzeug für Körperbehinderte Special car modified for physically challenged people 10 Dank der heutigen Technik können Menschen mit einer körperlichen Behinderung ein Auto selbstständig steuern. Mechatronische Systeme ermöglichen es, die primären Funktionen wie Lenken, Beschleunigen oder Bremsen zu steuern. Wer jedoch den Blinker setzen oder die Klimaanlage einstellen will, muss je nach Art der Behinderung auf individuelle und dadurch kostenintensive Zusatzanfertigungen zurückgreifen. Für solche so genannten Sekundär- und Komfortfunktionen erweist sich die Sprache als praktisches Steuerungsinstrument. Gemeinsam mit der Mobilcenter Zawatzky GmbH, Meckesheim / Köln, entwickelte das EML 2013 im Rahmen eines ZIM-Projekts eine Sprachsteuerung für Sekundär- und Komfortfunktionen. Die EML-Sprachtechnologen haben eine Spracherkennung erarbeitet, die auch in Situationen mit hohem Geräuschpegel gesprochene Befehle zur Steuerung der sogenannten Sekundärfunktionen wie Hupen, Blinken oder zur Steuerung des Fernlichts mit einer großen Sicherheit erkennt. Dieses System ist seit Ende 2013 für Kunden der Firma Zawatzky verfügbar. Anfang 2014 ging die Bestellung für das erste Fahrzeug mit Sprachsteuerung ein. Zur Steuerung der Komfortfunktionen wie Navigationssysteme, Wetterberichtsabfragen oder das Diktieren von Kurznachrichten arbeitet das EML-Team daran, die Sprachsteuerung über das Internet zu ermöglichen. Ein erster Prototyp der Sprachsteuerung inklusive der Komfortfunktionen wurde im Rahmen des Jahrestreffens der European Mobility Group Ende 2013 präsentiert. Barrier-free: In-car speech control transLectures: Hörsaal ohne Sprachgrenzen The Mobilcenter Zawatzky GmbH, Meckesheim/Köln and EML jointly develop a voice command system in vehicles for the physically handicapped Auf Video aufgezeichnete Vorlesungen und Vorträge automatisch in Text umzuwandeln und in verschiedene Sprachen zu übersetzen ist Ziel des europaweiten Projektes „transLectures“. Durch die Transkription und Übersetzung können die Inhalte leichter durchsucht, kategorisiert und analysiert werden und stehen einem breiten (internationalen) Publikum zur Verfügung, insbesondere Menschen mit Behinderungen. Ein erster Prototyp wurde bereits erstellt. Darin können beispielsweise für englische Videos englische, französische, deutsche, spanische und slowenische Untertitel ausgewählt werden. Ferner werden mit dem Prototypen verschiedene Möglichkeiten zur intelligenten Interaktion evaluiert: So wählt das System zum Beispiel Wörter mit geringem Konfidenzwert aus - die also nicht die „erste Wahl“ bei der Verschriftung sind - und bietet sie den Nutzern zur Korrektur an. Auf diese Weise können potentiell fehlerhafte Stellen mit minimalem Aufwand korrigiert werden. Das EML stellt in „transLectures“ die Infrastruktur zur automatischen Transkription der Videos aus den Multimediaplattformen VideoLectures.NET und poliMedia zur Verfügung. Um die Spracherkennung weiter zu verbessern, werden am EML Methoden zur schnelleren und automatischen Anpassung an den Videoinhalt erforscht und integriert. Außerdem wurden Sprachtechnologien der RWTH Aachen in die „EML Transcription Platform“ integriert und für die Projektanforderungen angepasst, zum Beispiel durch Optimierung der Erkennungsgeschwindigkeit und Speicheranforderungen. Die EML-Sprachtechnologen entwickeln überdies Sprachmodelle für Deutsch, Englisch und Spanisch. Partner des von der EU geförderten Projekts sind neben dem EML Universitäten, Forschungsinstitute und Firmen aus Spanien, Frankreich, Slowenien, England und Deutschland. „transLectures“ startete im November 2011 und endet im Oktober 2014. Today’s technology allows physically handicapped people to drive a car. Due to mechatronic systems, they can control the primary functions like steering, accelerating or braking. However, using indicators or adjusting the air conditioner is not as easy. Depending on the type of disability, the driver therefore needs custom-made and thus costly solutions. Language has proven to be a practical management tool for the so-called secondary and comfort functions. In cooperation with the Mobilcenter Zawatzky GmbH, Meckesheim/Köln, the EML developed a voice command function for secondary and comfort functions in the framework of a “Central Innovation Program SME” project in 2013. The EML language technologists developed a speech recognition tool that is reliable in recognizing spoken commands for controlling the so-called secondary functions like sounding the horn, indicating and controlling the high beam, even in situations with a high noise level. Since the end of 2013, this system is available for customers of the company Zawatzky. At the beginning of 2014, the company received the first order for a vehicle with voice command. Enabling the use of voice commands over the internet for controlling comfort functions like navigation, weather report queries or dictation of short messages is an important item on EML’ s agenda. A first prototype of the system, including the comfort functions, was presented at the annual meeting of the European Mobility Group in late 2013. transLectures: The omni-lingual lecture hall The transcription and translation of educational video lectures provided in online repositories via the internet is the aim of the Europe-wide project ‘transLectures’. Content thus becomes easier searchable, classifiable and analyzable. Furthermore, it is accessible to a broad international audience, as well as to people with disabilities. In a first prototype, English, French, German, Spanish and Slovenian subtitles can be selected for English videos for example. Furthermore, the prototype allows the evaluation of different strategies for intelligent interaction: the system selects words with a low confidence value – i.e. words that are not the “first choice” for transcription – and gives the user the option to correct them. In this way, potentially incorrect parts of the transcription can be corrected with a minimum effort. EML’s contribution to “transLectures” is the provision of an infrastructure for the automatic transcription of video lectures from the VideoLectures.NET and poliMedia web portals. To improve speech recognition, EML focuses on developing methods for automatic and fast adaption of language models to the video content. In addition, speech technology of RWTH Aachen was integrated into the “EML Transcription Platform” and adapted to meet the project requirements like recognition speed and memory requirements. Besides that, EML speech technology engineers are developing language models for German, English and Spanish. Alongside EML, the partners of the EU-funded project are universities, research institutes and companies from Spain, France, Slovenia, the UK and Germany. ”transLectures“ started in November 2011 and proceeds till October 2014. Vorlesungen und Vorträge sollen automatisch verschriftet werden Lectures and talks will be transcribed automatically 11 Partner-Netzwerk Partner network Die EML European Media Laboratory GmbH verfügt über ein ständig wachsendes, internationales Netzwerk von Partnern in den Bereichen Sprachnachrichten, Sprachsuche, ortsbasierte Dienste, Inhaltsanalyse, Medientranskription und „Assisted Living“. Die Zusammenarbeit reicht vom Einsatz der EML-Sprachtechnologie zur Erweiterung von Mobilfunkdiensten bis hin zu Medientranskriptionen, zum Beispiel von Gerichtsverhandlungen oder Fernsehsendungen. International agierende Partner nutzen dabei die Möglichkeit, die EML-Lösungen auch in andere Sprachen zu übertragen. The EML European Media Laboratory GmbH is part of a constantly growing international network of partners in the fields of voice messaging, voice search, location-based service, speech analytics, media transcription, and assisted living. Collaborations range from the use of EML speech technology to enhance services in mobile telephony to media transcription of court proceedings or television broadcasts. Partners operating on an international scale use the collaboration opportunity to transfer EML solutions into further languages. Enrico Giannotti, stv. Geschäftsführer, Cedat 85 srl, Rom/Italien: „Als führender italienischer Anbieter von Sprachdiensten auf der Basis innovativer Technologien erstellen wir Systeme für die automatische Transkription von Fernsehsendungen, Parlamentsdebatten und Gerichtsverhandlungen. Durch die Partnerschaft mit EML konnten wir ein Transkriptionsmodell für die italienische Sprache entwickeln und dieses in unsere existierende Transkriptionsumgebung integrieren.“ Helmut an de Meulen, Geschäftsführer Materna GmbH „Wir als Telekommunikationsspezialisten werden oft gefragt: Wie kann ich das Vertrauen meiner Kunden gewinnen, wenn ich keinen persönlichen Kontakt habe? Wir empfehlen: Setzen Sie auf intelligente Sprachanwendungen! Aus langjähriger Erfahrung mit Sprach-Mehrwertdiensten wissen wir, wie effektiv und kostenoptimal dieser Kanal wirkt. Gemeinsam mit unserem Partner EML bieten wir alle technischen Voraussetzungen, um zum Beispiel den innovativen Voice-to-TextDienst am Markt erfolgreich zu positionieren.“ Dr. Ahmed Elmagarmid, Geschäftsführer, QCRI, Doha / Katar „Unsere Zusammenarbeit mit EML ist eine optimale Verbindung von Fachwissen in der sprachtechnologischen Forschung. Das Ergebnis unserer Kooperation eröffnet zahlreiche Möglichkeiten für die Zukunft der Kommunikation und des Informationsaustauschs. Wir freuen uns darauf, unsere Zusammenarbeit mit EML weiter auszubauen.“ Tim Mois und Thilo Salmon, Geschäftsführer, sipgate GmbH: „Die sipgate GmbH bietet Mobilfunk für Unternehmen und mit der Marke simquadrat ein Mobilfunkprodukt für Privatkunden. Mit mehreren hunderttausend Kunden in Deutschland und Großbritannien sind wir zudem einer der größten VoIP-Anbieter Europas und bieten seit 2004 CloudTelefonielösungen für Privatkunden und Firmen. Durch die EML-Sprachtechnologie können wir unseren Kunden in Deutschland einen besonderen Voicemail-Service bieten. Die Transkriptionsergebnisse haben uns sehr überzeugt.“ 12 Enrico Giannotti, Deputy General Manager, Cedat 85 srl, Rome/ Italy: “We are a leading supplier of speech and language services based on innovative technologies. We create systems for the automatic transcription of television and radio programs, parliamentary debates, court proceedings, call center, mobile applications. Thanks to our partnership with EML we have been able to develop a very performing automatic speech recognition solution for Italian and other languages to integrate it into our existing transcription environment and innovative solutions.” Helmut an de Meulen, Managing Director of Materna GmbH “As a telecommunications specialist we are often asked: “How can I gain the trust of my customers if it’s not possible for me to have personal contact with them?” Our recommendation in that case is: Make use of intelligent speech applications! From our long-term experience with value-added voice services we know that this channel operates very efficiently and at optimal costs. Together with our partner EML we meet all the technical requirements to successfully position innovations like, for example, Voice-to-Text service in the market.” Dr. Ahmed Elmagarmid, Executive Director, QCRI, Doha / Qatar “Our collaboration with EML is an ideal union of expertise in language technology research. The result of our cooperation opens up numerous possibilities for the future of communication enabling and information sharing. We look forward to further strengthening our relationship with EML.” Tim Mois und Thilo Salmon, CEOs, sipgate GmbH: “The sipgate GmbH offers mobile communications for businesses, and our brand simquadrat is a mobile communication product for private customers. With several hundreds of thousands of customers in Germany and the UK, we are one of the biggest VoIP providers in Europe, and since 2004 we offer cloud telephony solutions for private customers and companies. Thanks to the EML language technology, we are able to offer our customers in Germany a special voicemail service. The transcription results really convinced us.” 13 EML Live Sprachtechnologie überzeugt immer dann besonders, wenn sie im direkten Kontakt demonstriert wird, „live“ und ohne doppelten Boden. Deshalb präsentieren die EML-Sprachtechnologen ihre Anwendungen gerne bei Veranstaltungen, bei denen die Besucher selbst die Möglichkeit haben, Spracherkennung und -analyse zu testen. Das EML nimmt 2014 an zwei großen Messen teil: an der CCW (vormals: CallCenterWorld) in Berlin und dem GSMA Mobile World Congress in Barcelona. Wie in den Jahren zuvor ist das EML in Berlin mit einem eigenen Stand auf der CCW vertreten. Mit fast 8000 Besuchern ist die CCW die größte europäische Messe für Call Center und Customer Management. Dort stellt das EML vom 18. bis 20.02.2014 seine „Speech Analytics Platform“ vor und zeigt seinen Voicemail2Text-Service. Die Messebesucher können testen, wie ihre Anrufe durch automatische Transkription zu Text werden. Am GSMA Mobile World Congress in Barcelona vom 24. bis 27. Februar 2014 beteiligt sich das EML am Stand des Partners Materna GmbH. Der Mobile World Congress ist mit mehr als 70.000 Besuchern aus über 200 Ländern das größte Branchentreffen der Mobilfunk- und Internetindustrie. Dort präsentieren die Heidelberger Sprachtechnologen ihren Voicemail2text Service und ihre Voicemail2Text-App für die AndroidPlattform für die Sprachen Deutsch, Englisch und Spanisch. Zur Unterstützung der „Live“-Aktivitäten bespielt das EML auch interaktive Social Media Kanäle und ist auf Twitter, Facebook, Google+ und Youtube zu finden. 14 EML Live Language technology is especially convincing if people can experience it first-hand, “live” and if there is no safety net. Therefore, the EML speech technologists like to present their applications at events where visitors have the opportunity to test speech recognition and analysis. In 2014, EML will take part in two major exhibitions: the CCW (formerly CallCenterWorld) in Berlin and the GSMA Mobile World Congress in Barcelona. As in previous years, EML will have its own booth at the CCW in Berlin. With nearly 8,000 visitors, the CCW is the largest European fair for call center and customer management. From February 18-20 2014, EML will present its “Speech analytics Platform” and its “Voicemail2Text service” there. Visitors can watch their calls being turned into text via automatic transcription. At the GSMA Mobile World Congress in Barcelona from February 24- 27 2014, EML will be hosted at the stand of its partner Materna GmbH. With more than 70,000 visitors from more than 200 countries, the Mobile World Congress is one of the largest industry gatherings of the mobile communications and internet industry. The speech technologists from Heidelberg will present their Voicemail2Text Service and the Voicemail2Text App for the android platform for the languages German, English and Spanish. To support “live” activities, the EML also makes use of interactive social media channels and can be found on Twitter, Facebook, Google+ and Youtube. Das Unternehmen The Company Die EML European Media Laboratory GmbH ist ein privates IT-Unternehmen mit Sitz in Heidelberg, das von SAP-Mitbegründer Klaus Tschira im Jahr 1997 ins Leben gerufen wurde. Sein Auftrag: nicht beim erfolgreichen „proof of concept“ aufzuhören, sondern den ganzen Weg bis hin zum Produkt zu gehen. Diese Strecke legten EML Mitarbeiter in den ersten zehn Jahren gleich zweimal zurück: Mit der Gründung der tesa scribos GmbH, die heute Sicherheitshologramme auf Basis von Tesafilm produziert, und mit der Heidelberg Mobil International GmbH, die mobile Portale für Messen, Unternehmen und Städte entwickelt. Seit 2007 entwickelt das EML Software und neue Methoden im Bereich der automatischen Sprachverarbeitung. Erfahrene Sprachtechnologen und Informatiker arbeiten mit automatischer Spracherkennung daran, gesprochene Sprache in Text umzuwandeln – die Basis für eine Reihe von Produkten und Lösungen für Call-Center, Telefonanbieter, Fernsehsender oder Gebäudesteuerung. Sitz des EML ist die Villa Reiner am SchlossWolfsbrunnenweg 35. Geschäftsführer des Unternehmens sind Dr. h.c. Dr. E.h. Klaus Tschira und Prof. Dr. Dr. h.c. Andreas Reuter. The EML European Media Laboratory GmbH is a private IT company located in Heidelberg, Germany. It was established in 1997 by Klaus Tschira, one of the founders of the SAP AG. Its mission is to go beyond the ‘proof of concept’ stage and to come up with product offerings. In the first ten years, the EML team achieved this ambitious goal already twice with the establishment of Heidelberg Mobil International GmbH and tesa scribos GmbH. Heidelberg Mobil International GmbH develops mobile portals for trade fairs, companies, and city authorities, and tesa scribos GmbH produces security holograms using sticky tape. Since 2007, EML has been focusing its research and development work on manmachine interaction and automatic speech processing. Expert language technologists and IT specialists use automatic speech recognition to convert spoken language into text. This is the basis for a range of products and solutions for call centers, telephone providers, broadcasters, and automatic control systems for buildings. The EML is located at the Villa Reiner, Schloss-Wolfsbrunnenweg 35 in Heidelberg, Germany. Managing directors are Dr. h.c. Dr. E.h. Klaus Tschira and Prof. Dr. Dr. h.c. Andreas Reuter. Dr. h.c. Dr. e.H. Klaus Tschira Gründer und Geschäftsführer des EML Founder and managing director of EML 15 EXPERIENCE IT! INTUITIVE TECHNOLOGY www.eml.org Twitter: @EMLvoice Facebook: /EMLEuropeanMediaLaboratory Youtube: /EMLVoiceMessaging Google+: /+EMLVoicemailService Impressum | Imprint EML European Media Laboratory GmbH Villa Reiner | Schloss-Wolfsbrunnenweg 35 D-69118 Heidelberg Kontakt | Contact Dr. Siegfried Kunzmann | R & D Manager Phone: +49-6221-533206 | Fax: +49-6221-533298 [email protected] Managing Partner (geschäftsführender Gesellschafter) Dr. h.c. Klaus Tschira Scientific and Managing Director (Geschäftsführer) Prof. Dr.-Ing. Dr. h.c. Andreas Reuter HRB 335719, Amtsgericht Mannheim All rights reserved. © European Media Laboratory 2014