Robert Klatt
Eine Künstliche Intelligenz (KI) konnte bei der Erkennung von Alltagsgesprächen erstmals eine höhere Genauigkeit als Menschen erreichen. In Zukunft könnte die Technologie zum Beispiel als Basis für automatische Übersetzungen dienen.
Karlsruhe (Deutschland). Sprachassistenten wie Alexa, Cortana oder Siri ermöglichen es automatisiert Transkription gesprochener Texte und Übersetzungen zu erstellen. Die Spracherkennungssysteme nutzen dazu künstliche neuronale Netzwerke, die akustische Signale anhand von Bibliotheken einzelne Silben und Wörtern zuordnen. Die Ergebnisse sind bei direkter Ansprache der Assistenten oder bei einem vorgelesenen Text inzwischen sehr gut, im Alltag treten aber noch oft Probleme auf, die wie eine Studie der Ruhr-Universität-Bochum (RUB) kürzlich gezeigt hat, auch dazu führen können, dass Sprachassistenten ungewollt durch falsch verstandene Signalwörter aktiviert werden.
Auch Gespräche zwischen mehreren Menschen sorgen derzeit noch häufig für Probleme. Laut Alex Waibel vom Karlsruher Institut für Technologie (KIT) „gibt es Abbrüche, Stotterer, Fülllaute wie ‚äh‘ oder ‚hm‘ und auch Lacher oder Huster, wenn Menschen miteinander sprechen.“ Außerdem werden, wie Waibel erklärt „Worte zudem oft noch undeutlich ausgesprochen.“ Dies führte dazu, dass selbst Menschen Probleme dabei haben eine exakte Transkription eines solchen informellen Dialogs zu erstellen. Noch größere Schwierigkeiten hat dabei jedoch eine Künstliche Intelligenz (KI).
Laut einem bei arXiv erschienenen Preprint ist Wissenschaftlern um Waibel nun die Entwicklung einer KI gelungen, die auch alltägliche Gespräche schneller und besser als Menschen transkribiert. Als Basis des neuen Systems dient eine Technologie, die in Echtzeit Universitätsvorlesungen aus dem Deutschen und Englischen übersetzt. Dazu werden sogenannte Encoder-Decoder-Netzwerke verwendet, die akustische Signale analysieren und ihnen Wörter zuordnen. Laut Waibel „ist die Erkennung spontaner Sprache die wichtigste Komponente in diesem System, weil Fehler und Verzögerungen die Übersetzung schnell unverständlich machen.“
Nun haben die Wissenschaftler des KIT das System deutlich weiterentwickelt und dabei vor allem die Latenz signifikant verringert. Waibel und sein Team nutzten dafür einen Ansatz, der auf der Wahrscheinlichkeit bestimmter Wortkombinationen basiert und verknüpften diesen mit zwei anderen Erkennungsmodulen.
In einem standardisierten Test hörte die neue Spracherkennung Gesprächsausschnitte aus einer Sammlung von etwa 2.000 Stunden Telefongesprächen, die das System automatisch transkribieren sollte. Laut Waibel liegt „die Fehlerrate von Menschen hierbei um die 5,5 Prozent.“ Die KI kam hingegen nur auf eine Fehlerrate von 5,0 Prozent und übertrifft damit erstmals den Menschen bei der Erkennung von Alltagsgesprächen. Auch die Latenzzeit, also die Verzögerung zwischen dem Eintreffen des Signals und dem Ergebnis ist mit im Mittel 1,63 Sekunden sehr schnell, kommt aber noch nicht ganz an die im Mittel 1 Sekunde Latenz eines Menschen heran.
Genutzt werden könnte das neue System in Zukunft zum Beispiel als Basis für automatische Übersetzungen oder für andere Szenarien, in denen Computer natürliche Sprache verarbeiten sollen.
arXiv:2010.03449