Digital Life
Stumme Spracherkennung: Ein Computer lernt Lippen lesen
Rote Karte nach dem Ausgleichstreffer in der 87. Spielminute: Das Stadion bebt – und was die erregten Kicker in diesem Moment Richtung Schiedsrichter wettern, versteht niemand. Es sei denn, Du kannst Lippen lesen. Diese hochkomplexe Fähigkeit sollen Computer bald beherrschen. Dafür arbeiten britische Forscher derzeit an einem besonders lernfähigen Exemplar.
Der HAL 9000 entschlüsselte bereits 1968 die geheimen Pläne von Astronauten anhand ihrer Lippenbewegungen. Der intelligente Supercomputer ist zwar eine Erfindung aus dem Science-Fiction-Klassiker 2001: Odyssee im Weltraum, zeigt aber, wie alt die Idee und wie zeitintensiv die reale Umsetzung ist. Forscher der britischen University of East Anglia (UEA) haben nun eine Technik zur visuellen Spracherkennung entwickelt, die der Filmvision schon sehr nahe kommt.
Lernstrategie als entscheidender Teil der Forschung
Schlüssel zum Erfolg der intelligenten Lippenlese-Maschine: Sie ist lernfähig. Der Computer nimmt Aussehen und Abfolge der Mundbewegungen – sogenannte Viseme – und die geäußerten Laute (Phoneme) von Videoaufnahmen auf. An einem statistischen Modell wird dann geübt, wie Ton und Bild zusammenhängen. Der digitale Schüler „merkt“ sich also nicht nur einzelne Lippenbewegungen und lernt diese zuzuordnen, sondern nimmt auch Kontexte in seiner Datenbank auf. Diese zusätzlichen Informationen sind enorm wichtig, um lautlose Worte präziser identifizieren zu können. Denn wer sich schon mal im Lippenlesen versucht hat, weiß, dass viele Laute quasi gleich aussehen.
Herausforderung für Mensch und Maschine
Um die „Lippenbekenntnisse“ besser differenzieren zu können, greift der Computer auf ein Klassifikationssystem zurück. Sein gespeicherter Wortschatz und vorhandene Satzkonstruktionen schränken die möglichen Phonem-Ketten ein. Knifflig wird es bei Redewendungen, Umgangssprache und spontanen Unterhaltungen. Jeder Sprecher redet anders, manch einer kriegt die Zähne nicht auseinander und macht es dem Rechner mit einer undeutlichen Aussprache oder grammatikalisch falschen Sätzen schwer. Für den Einsatz unter realen Bedingungen reicht es daher noch nicht. Dennoch brachte die dreijährige Projektarbeit, dessen Ergebnisse kürzlich auf der International Conference on Acoustics, Speech and Signal Processing (ICASSP) in Shanghai präsentiert wurden, deutliche Fortschritte im Vergleich zu bisherigen Verfahren.
Meilenstein der Künstlichen Intelligenz
Eine Technik zur lautlosen Spracherkennung, die für jede Sprache und jeden Sprecher funktioniert, wäre ein Meilenstein im Bereich der Künstlichen Intelligenz. Parallel zum visuellen Lippenlese-System gibt es dafür auch andere Lösungsansätze: So könnten stimmlose Worte durch Messung der Muskelaktivität im Gesicht und Hals, mit Hilfe von Ultraschallbildern der Zunge oder durch Beobachtung der Hirnaktivität entschlüsselt werden. Letzteres ist jedoch eher unpraktisch, da das bislang nur am offenen Schädel möglich ist. Hingegen verspricht die visuelle Lippenlese-Maschine eine ganze Reihe nützlicher Anwendungen.
Vielfältige Einsatzmöglichkeiten
Wenn der schlaue Computer seinen Abschluss hat, kann er vielfältig beschäftigt werden. Die Technologie könnte zur besseren Verständigung von sprach- und gehörlosen Menschen beitragen oder anhand tonloser Überwachungsvideos zur Aufklärung von Straftaten genutzt werden. Denkbar ist auch, dass das Programm ähnlich wie Apples Siri und Google Now als digitaler Assistent und Erkennungssystem auf Smartphones zum Einsatz kommt. Passwörter und PIN würden dann durch lautlose Lippenbewegungen ersetzt werden. Generell könnte das System überall eingesetzt werden, wo Umgebungsgeräusche zu laut oder Töne zu leise sind, beispielsweise im Auto, an Flughäfen oder eben im Getöse der Stadionchöre bei Sportveranstaltungen.
Vielleicht also verrät Dir der digitale Lippenleser eines Tages, mit welchen Worten Fußballer ihrem Ärger in aufgeheizten Spiel-Momenten Luft machen.
In welchen Situationen würdest Du gerne Lippen lesen können? Wir freuen uns über Deine audiofreien Wortbeiträge.