Alle reden von Spracherkennung

 

 

 

 

Alle reden von Spracherkennung. Davon, natürliche Sprache zu verstehen, sind aber heutige Systeme immer noch weit entfernt.

 

Dabei reicht die Geschichte der technischen Auseinandersetzung mit gesprochener Sprache schon viel länger zurück. Zunächst ging es darum, Maschinen zu entwerfen, die wie ein Mensch sprechen können sollten. Einer der Pioniere war der ungarische Gelehrte Wolfgang von Kempelen, der in den Geschichtsbüchern vor allem mit seinem Schachtürken zu finden ist. Von Kempelen entwarf 1791 in einem Buch aber auch eine Sprechmaschine, die als verschollen gilt. Mit dem Einsetzen des Computerzeitalters und später mit der digitalen Aufnahmetechnik standen plötzlich ganz andere Mittel zur Verfügung, was zur Entwicklung der modernen Sprachsynthese führte.

 

Die erste maschinelle Spracherkennung wurde 1952 in den amerikanischen Bell Laboratories entwickelt. Das System „Audrey“ sollte einzelne Zahlen erkennen. „Man musste zwischen den Zahlen aber lange Pausen machen, damit Audrey die Ziffern überhaupt verstehen konnte“, sagt Prof. Hans Uszkoreit vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin. Der nächste Meilenstein der Spracherkennung wurde Ende der sechziger und in den siebziger Jahren an der Carnegie Mellon University mit massiver Förderung durch das US-Verteidigungsministerium und seiner Agentur DARPA erzielt. „Harpy“ beherrschte mit gut 1000 Worten den Sprachschatz eines Dreijährigen.

 

1962 präsentierte IBM auf der Weltausstellung in Seattle ein Spracherkennungssystem in der Größe einer Schuhschachtel. Der Wortschatz des ersten Spracherkennungssystems war noch sehr begrenzt: Die „Shoebox“ des Computerkonzerns IBM erkannte gerade einmal 16 Worte: Es waren die Zahlen von Null bis Neun und außerdem die mathematischen Anweisungen minus, plus, subtotal, total, false und of. Das staunende Publikum konnte erleben, wie die Maschine die gesprochene Rechenaufgabe „Fünf plus drei plus acht plus sieben plus vier minus neun, zusammen“ auf Englisch verstehen und die korrekte Antwort 17 ausspucken konnte. Zu diesem Zeitpunkt war IBM noch fast 20 Jahre von der Entwicklung des ersten Personal Computers entfernt.

 

In den neunziger Jahren erreichte die Sprach-erkennung den Personal Computer: Damals konkurrierten die IT-Riesen IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft mit ihren Programmpaketen zur Spracherkennung um die Kunden. In den vergangenen zehn Jahren übernahm der amerikanische Software-Einwicklungs-Konzern Nuance eine lange Liste von kleineren Spezialfirmen. Dort landeten auch die Spracherkennungstechnologien von IBM und Philips.

 

In den vergangenen Jahren hat sich im Bereich Spracherkennung viel getan. Neue Bewegung in die Branche brachten Sprachverarbeitungssysteme wie „Siri“ von Apple. Bei Siri werden die Sprachsignale über das Netz an einen Server übertragen und dort analysiert. Die Antworten des Systems werden dann wiederum auf das iPhone zurückgespielt. Ähnlich funktionieren auch Spracherkennungssysteme von Google und Microsoft. Auch hier landen die gesprochenen Daten auf Servern in den USA und tragen dazu bei, dass die Erkennungsquote der Systeme ständig verbessert werden kann. Insbesondere bei Google arbeiten Forscher aber schon an der nächsten Generation der Spracherkennung, bei der komplette Sätze nach ihrer Bedeutung untersucht werden. 

 

Spielkonsolen, Handys, Fernseher oder Navigationsgeräte hören ihren Nutzern bereits routinemäßig zu. Allerdings verstehen die entsprechenden Anwendungen meist nur vorgefertigte Befehle oder einfache Aussagen. Die größte Herausforderung ist das Verstehen von natürlicher Sprache. Hier gibt es noch viele Probleme zu lösen. Vor allem Hintergrundgeräusche, Dialekte, Betonungen und unsaubere Aussprache stellen die Forscher vor komplexe Aufgaben. 

 

Bei der deutschen Sprache liegen die Schwierigkeiten vor allem in den verschiedenen, oft schwer zu unterscheidenden Wortendungen, bei zusammengesetzten Wörtern und in der Vielzahl der lokalen Idiome. Romanische Sprachen sind einfacher, besonders schwierig sind zum Beispiel Finnisch und Ungarisch, aber auch Chinesisch, wo auch der Tonverlauf auf jeder Silbe bedeutungsunterscheidend sein kann. 

 

Die Komplexität ist groß, aber es ist davon auszugehen, dass die Wissenschaft und Forschung in den nächsten Jahren große Schritte weiterkommen wird. Auf der Suche nach einer Universalübersetzungsmaschine (falls es eine 

solche je geben kann) wird man neue Wege einschlagen und Technologien entwickeln müssen, die nach den ersten Rückschlägen des Big-Data-Booms mit viel ausgereifteren Methoden das erkennen können, was in einer Sprache gesagt und gemeint wird, um es dann in eine andere zu übertragen. Diesen Ansatz vertritt schon seit 2004 der britische Linguist David Crystal: Nach seiner Vision wird die Grenze zwischen gesprochener und schriftlich fixierter Sprache zusehends verschwimmen. Langfristig werden wir laut Crystal nicht mehr vornehmlich über die Tastatur, sondern über Stimmerkennungsprogramme mit dem Computer kommunizieren. Eine neue Sprachebene wird sich etablieren:„Netspeak“. Denn einerseits verändern die neuen Sprachkanäle die Sprache in ihren Ausdrucksformen, weil andere semantische Ebenen benötigt und verwendet werden, andererseits ermöglichen die neuen Sprachtechnologien die Befreiung der Sprechenden von Übersetzungsbarrieren. 

 

Wieso sollte ein Spracherkennungsprogramm unsere Wörter nicht schon während wir sprechen in die Zielsprache des anderen übertragen? Die Frage wäre dann nur noch, welche Art von Stimme oder Akzent man für die andere Sprache wählt...

 

Quelle: FutureZone/30.1.2014, Trend-Update 12/2013, Mr. Gadget/Christoph Dernbach/20.4.2012

 

Unterstützen Sie unser Projekt!

Mit Ihrem Eintrag unterstützen Sie das "Haus der Sprache"!

Hinweis: Bitte die mit * gekennzeichneten Felder ausfüllen.