Dennis L.
Vernetzte Sprachassistenten belauschen ihre Nutzer wahrscheinlich häufiger als gewünscht. Zu dieser Erkenntnis kam ein Team der Ruhr-Universität-Bochum sowie des Bochumer Max-Planck-Instituts für Cybersicherheit und Schutz der Privatsphäre.
Bochum (Deutschland). „Am Sonntag“, „Ok, cool“ und „Daiquiri“, die sind drei der mehr als 1.000 Wörter und Redewendungen, die die vernetzten Lautsprecher von Amazon, Google beziehungsweise Siri von Apple starten können, wie die Forschenden um Professorin Dorothea Kolossa und Professor Thorsten Holz der Ruhr-Universität Bochum heraus. Alexa reagiert sogar die englischen Worte „unacceptable“ und „election“ und Siri auf „a city"“.
Fühlen sich die Systeme fälschlicherweise angesprochen, dann registrieren die Sprachassistenten einen kurzen Part des Gesagten und die Daten werden an den jeweiligen Hersteller übermittelt. Nutzerinnen und Nutzer bemerken das in der Regel kaum. Im Fall der versehentlichen Aktivierung werden die Audioaufnahmen transkribiert und auf Lautfolgen überprüft, die zum unbeabsichtigten Start führen. Auf diese Weise soll die Spracherkennung präziser werden.
Zu den Expertinnen und Experten im Bereich IT, die Tests durchführten, zählte unter anderem der jetzt am Max-Planck-Institut für Cybersicherheit und Schutz der Privatsphäre forschende Maximilian Golla. Im Fokus standen die Sprachassistenten von Apple, Google, Amazon, Deutscher Telekom und Microsoft sowie drei chinesische Modelle von Baidu, Tencent und Xiaomi. Viele Stunden lang wurden diesen englisches, deutsches und chinesisches Audiomaterial vorgestellt, dazu noch einige Fernsehserien und Nachrichtensendungen. Selbst Audio-Datensätze professioneller Art kamen zum Einsatz, die sonst zum Training von Sprachassistenten verwendet werden. So sprang der Amazon-Sprachassistent selbst bei Wortfolgen aus dem Fernsehen an und schickte Mitschnitte in die Cloud. Das stellte das Bochumer Forschungsteam unter anderem bei „Game of Thrones“ fest.
Dorothea Kolossa kam zu der Feststellung, dass sämtliche Assistenten gezielt liberal programmiert wurden, damit sie ihre Menschen verstehen. Sie reagieren eher einmal mehr auf Sprache als einmal zu wenig. Genauere Erkenntnisse sammelte das Forscherteam zum Umgang der Geräte mit versehentlichen Aktivierungswörtern. Dieser Prozess läuft zweistufig ab. Zuerst macht das Gerät die lokale Analyse, ob in der aufgenommenen Sprache ein Triggerwort zu finden ist. Vermutet es solch ein Wort, kommt das Gespräch in die Cloud des Herstellers. Identifiziert diese Cloud das Wort als Fehltrigger, äußert sich der Sprachassistent nicht. Lediglich die Aktivitätsanzeige leuchtet kurz auf. Trotzdem können Audiomitschnitte beim Hersteller landen, mit deren Auswertung künftig die versehentliche Aktivierung vermieden werden soll. Aus Sicht der Privatsphäre gilt das als bedenklich, aber die Systeme können nur durch solche Datenauswertungen verbessert werden, meint Thorsten Holz.