Podolski hält einen Fußball in die Kamera mit Vodafone Logo für die Baller League
Auf dem Bild vom DAZN Unlimited-Artikel sind die Fußballstars Erling Haaland, Harry Kane, Kylian Mbappé und Florian Wirtz abgebildet. Von links nach rechts trägt Haaland das hellblaue Trikot von Manchester City, Kane das rote Trikot des FC Bayern München, Mbappé das weiße Trikot von Real Madrid und Wirtz das rote Trikot von Bayer Leverkusen. Die Spieler sind in dynamischen Posen dargestellt, vor einem hellen, himmlischen Hintergrund mit einem angedeuteten Stadion. Unten im Bild befinden sich die Logos von DAZN und der UEFA Champions League.

Stumme Spracherkennung: Ein Computer lernt Lippen lesen

Rote Karte nach dem Aus­gle­ich­str­e­f­fer in der 87. Spielminute: Das Sta­dion bebt – und was die erregten Kick­er in diesem Moment Rich­tung Schied­srichter wet­tern, ver­ste­ht nie­mand. Es sei denn, Du kannst Lip­pen lesen. Diese hochkom­plexe Fähigkeit sollen Com­put­er bald beherrschen. Dafür arbeit­en britis­che Forsch­er derzeit an einem beson­ders lern­fähi­gen Exemplar.

Der HAL 9000 entschlüs­selte bere­its 1968 die geheimen Pläne von Astro­naut­en anhand ihrer Lip­pen­be­we­gun­gen. Der intel­li­gente Super­com­put­er ist zwar eine Erfind­ung aus dem Sci­ence-Fic­tion-Klas­sik­er 2001: Odyssee im Wel­traum, zeigt aber, wie alt die Idee und wie zeit­in­ten­siv die reale Umset­zung ist. Forsch­er der britis­chen Uni­ver­si­ty of East Anglia (UEA) haben nun eine Tech­nik zur visuellen Spracherken­nung entwick­elt, die der Filmvi­sion schon sehr nahe kommt.

Lernstrategie als entscheidender Teil der Forschung

Schlüs­sel zum Erfolg der intel­li­gen­ten Lip­pen­lese-Mas­chine: Sie ist lern­fähig. Der Com­put­er nimmt Ausse­hen und Abfolge der Mund­be­we­gun­gen – soge­nan­nte Viseme – und die geäußerten Laute (Phoneme) von Videoauf­nah­men auf. An einem sta­tis­tis­chen Mod­ell wird dann geübt, wie Ton und Bild zusam­men­hän­gen. Der dig­i­tale Schüler „merkt“ sich also nicht nur einzelne Lip­pen­be­we­gun­gen und lernt diese zuzuord­nen, son­dern nimmt auch Kon­texte in sein­er Daten­bank auf. Diese zusät­zlichen Infor­ma­tio­nen sind enorm wichtig, um laut­lose Worte präzis­er iden­ti­fizieren zu kön­nen. Denn wer sich schon mal im Lip­pen­le­sen ver­sucht hat, weiß, dass viele Laute qua­si gle­ich aussehen.

Herausforderung für Mensch und Maschine

Um die „Lip­pen­beken­nt­nisse“ bess­er dif­feren­zieren zu kön­nen, greift der Com­put­er auf ein Klas­si­fika­tion­ssys­tem zurück. Sein gespe­ichert­er Wortschatz und vorhan­dene Satzkon­struk­tio­nen schränken die möglichen Phonem-Ket­ten ein. Knif­flig wird es bei Redewen­dun­gen, Umgangssprache und spon­ta­nen Unter­hal­tun­gen. Jed­er Sprech­er redet anders, manch ein­er kriegt die Zähne nicht auseinan­der und macht es dem Rech­n­er mit ein­er undeut­lichen Aussprache oder gram­matikalisch falschen Sätzen schw­er. Für den Ein­satz unter realen Bedin­gun­gen reicht es daher noch nicht. Den­noch brachte die drei­jährige Pro­jek­tar­beit, dessen Ergeb­nisse kür­zlich auf der Inter­na­tion­al Con­fer­ence on Acoustics, Speech and Sig­nal Pro­cess­ing (ICASSP) in Shang­hai präsen­tiert wur­den, deut­liche Fortschritte im Ver­gle­ich zu bish­eri­gen Verfahren.

Meilenstein der Künstlichen Intelligenz

Eine Tech­nik zur laut­losen Spracherken­nung, die für jede Sprache und jeden Sprech­er funk­tion­iert, wäre ein Meilen­stein im Bere­ich der Kün­stlichen Intel­li­genz. Par­al­lel zum visuellen Lip­pen­lese-Sys­tem gibt es dafür auch andere Lösungsan­sätze: So kön­nten stimm­lose Worte durch Mes­sung der Muske­lak­tiv­ität im Gesicht und Hals, mit Hil­fe von Ultra­schall­bildern der Zunge oder durch Beobach­tung der Hir­nak­tiv­ität entschlüs­selt wer­den. Let­zteres ist jedoch eher unprak­tisch, da das bis­lang nur am offe­nen Schädel möglich ist. Hinge­gen ver­spricht die visuelle Lip­pen­lese-Mas­chine eine ganze Rei­he nüt­zlich­er Anwendungen.

 

Vielfältige Einsatzmöglichkeiten

Wenn der schlaue Com­put­er seinen Abschluss hat, kann er vielfältig beschäftigt wer­den. Die Tech­nolo­gie kön­nte zur besseren Ver­ständi­gung von sprach- und gehör­losen Men­schen beitra­gen oder anhand ton­los­er Überwachungsvideos zur Aufk­lärung von Straftat­en genutzt wer­den. Denkbar ist auch, dass das Pro­gramm ähn­lich wie Apples Siri und Google Now als dig­i­taler Assis­tent und Erken­nungssys­tem auf Smart­phones zum Ein­satz kommt. Pass­wörter und PIN wür­den dann durch laut­lose Lip­pen­be­we­gun­gen erset­zt wer­den. Generell kön­nte das Sys­tem über­all einge­set­zt wer­den, wo Umge­bungs­geräusche zu laut oder Töne zu leise sind, beispiel­sweise im Auto, an Flughäfen oder eben im Getöse der Sta­dionchöre bei Sportveranstaltungen.

Vielle­icht also ver­rät Dir der dig­i­tale Lip­pen­leser eines Tages, mit welchen Worten Fußballer ihrem Ärg­er in aufge­heizten Spiel-Momenten Luft machen.

In welchen Sit­u­a­tio­nen würdest Du gerne Lip­pen lesen kön­nen? Wir freuen uns über Deine audiofreien Wortbeiträge.

Das könnte Dich auch interessieren