Eine Frau wirft eine Flasche in den smarten Mülleimer Trashbot
Das Cockpit eines Teslas

Stumme Spracherkennung: Ein Computer lernt Lippen lesen

Rote Karte nach dem Aus­gle­ich­str­e­f­fer in der 87. Spielminute: Das Sta­dion bebt – und was die erregten Kick­er in diesem Moment Rich­tung Schied­srichter wet­tern, ver­ste­ht nie­mand. Es sei denn, Du kannst Lip­pen lesen. Diese hochkom­plexe Fähigkeit sollen Com­put­er bald beherrschen. Dafür arbeit­en britis­che Forsch­er derzeit an einem beson­ders lern­fähi­gen Exem­plar.

Der HAL 9000 entschlüs­selte bere­its 1968 die geheimen Pläne von Astro­naut­en anhand ihrer Lip­pen­be­we­gun­gen. Der intel­li­gente Super­com­put­er ist zwar eine Erfind­ung aus dem Sci­ence-Fic­tion-Klas­sik­er 2001: Odyssee im Wel­traum, zeigt aber, wie alt die Idee und wie zeit­in­ten­siv die reale Umset­zung ist. Forsch­er der britis­chen Uni­ver­si­ty of East Anglia (UEA) haben nun eine Tech­nik zur visuellen Spracherken­nung entwick­elt, die der Filmvi­sion schon sehr nahe kommt.

Lernstrategie als entscheidender Teil der Forschung

Schlüs­sel zum Erfolg der intel­li­gen­ten Lip­pen­lese-Mas­chine: Sie ist lern­fähig. Der Com­put­er nimmt Ausse­hen und Abfolge der Mund­be­we­gun­gen – soge­nan­nte Viseme – und die geäußerten Laute (Phoneme) von Videoauf­nah­men auf. An einem sta­tis­tis­chen Mod­ell wird dann geübt, wie Ton und Bild zusam­men­hän­gen. Der dig­i­tale Schüler „merkt“ sich also nicht nur einzelne Lip­pen­be­we­gun­gen und lernt diese zuzuord­nen, son­dern nimmt auch Kon­texte in sein­er Daten­bank auf. Diese zusät­zlichen Infor­ma­tio­nen sind enorm wichtig, um laut­lose Worte präzis­er iden­ti­fizieren zu kön­nen. Denn wer sich schon mal im Lip­pen­le­sen ver­sucht hat, weiß, dass viele Laute qua­si gle­ich ausse­hen.

Young adults hanging out talking

Herausforderung für Mensch und Maschine

Um die „Lip­pen­beken­nt­nisse“ bess­er dif­feren­zieren zu kön­nen, greift der Com­put­er auf ein Klas­si­fika­tion­ssys­tem zurück. Sein gespe­ichert­er Wortschatz und vorhan­dene Satzkon­struk­tio­nen schränken die möglichen Phonem-Ket­ten ein. Knif­flig wird es bei Redewen­dun­gen, Umgangssprache und spon­ta­nen Unter­hal­tun­gen. Jed­er Sprech­er redet anders, manch ein­er kriegt die Zähne nicht auseinan­der und macht es dem Rech­n­er mit ein­er undeut­lichen Aussprache oder gram­matikalisch falschen Sätzen schw­er. Für den Ein­satz unter realen Bedin­gun­gen reicht es daher noch nicht. Den­noch brachte die drei­jährige Pro­jek­tar­beit, dessen Ergeb­nisse kür­zlich auf der Inter­na­tion­al Con­fer­ence on Acoustics, Speech and Sig­nal Pro­cess­ing (ICASSP) in Shang­hai präsen­tiert wur­den, deut­liche Fortschritte im Ver­gle­ich zu bish­eri­gen Ver­fahren.

Meilenstein der Künstlichen Intelligenz

Eine Tech­nik zur laut­losen Spracherken­nung, die für jede Sprache und jeden Sprech­er funk­tion­iert, wäre ein Meilen­stein im Bere­ich der Kün­stlichen Intel­li­genz. Par­al­lel zum visuellen Lip­pen­lese-Sys­tem gibt es dafür auch andere Lösungsan­sätze: So kön­nten stimm­lose Worte durch Mes­sung der Muske­lak­tiv­ität im Gesicht und Hals, mit Hil­fe von Ultra­schall­bildern der Zunge oder durch Beobach­tung der Hir­nak­tiv­ität entschlüs­selt wer­den. Let­zteres ist jedoch eher unprak­tisch, da das bis­lang nur am offe­nen Schädel möglich ist. Hinge­gen ver­spricht die visuelle Lip­pen­lese-Mas­chine eine ganze Rei­he nüt­zlich­er Anwen­dun­gen.

 

Beautiful red lips with white speech bubbles

Vielfältige Einsatzmöglichkeiten

Wenn der schlaue Com­put­er seinen Abschluss hat, kann er vielfältig beschäftigt wer­den. Die Tech­nolo­gie kön­nte zur besseren Ver­ständi­gung von sprach- und gehör­losen Men­schen beitra­gen oder anhand ton­los­er Überwachungsvideos zur Aufk­lärung von Straftat­en genutzt wer­den. Denkbar ist auch, dass das Pro­gramm ähn­lich wie Apples Siri und Google Now als dig­i­taler Assis­tent und Erken­nungssys­tem auf Smart­phones zum Ein­satz kommt. Pass­wörter und PIN wür­den dann durch laut­lose Lip­pen­be­we­gun­gen erset­zt wer­den. Generell kön­nte das Sys­tem über­all einge­set­zt wer­den, wo Umge­bungs­geräusche zu laut oder Töne zu leise sind, beispiel­sweise im Auto, an Flughäfen oder eben im Getöse der Sta­dionchöre bei Sportver­anstal­tun­gen.

Vielle­icht also ver­rät Dir der dig­i­tale Lip­pen­leser eines Tages, mit welchen Worten Fußballer ihrem Ärg­er in aufge­heizten Spiel-Momenten Luft machen.

In welchen Sit­u­a­tio­nen würdest Du gerne Lip­pen lesen kön­nen? Wir freuen uns über Deine audiofreien Wort­beiträge.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Das könnte Dich auch interessieren