Eine Frau wirft eine Flasche in den smarten Mülleimer Trashbot
Das Cockpit eines Teslas

Photoshop für die Stimme: Adobe Project VoCo bearbeitet Stimmen täuschend echt

Dass Bilder mit Hil­fe von Pho­to­shop gestal­tet wer­den, ist nichts Neues. Bald will Adobe auch eine Soft­ware anbi­eten, die Sprachauf­nah­men statt Bildern bear­beit­en kann. Das soge­nan­nte Project VoCo ord­net aufgenom­men Wörter nicht nur neu an, son­dern kann neue Wörter und Sätze täuschend echt ausspuck­en. Eine span­nende Tech­nolo­gie mit vielfälti­gen Ein­satzmöglichkeit­en…

Photoshop für die Stimme

Auf sein­er Hausmesse „Max“ gab Adobe Ein­blicke in Pro­jek­te  aus dem Entwick­lungsla­bor. „Project VoCo“, eine Soft­ware zur Nach­bear­beitung gesproch­en­er Texte, soll eine Art Pho­to­shop für Sprachauf­nah­men wer­den. Damit bringt der Anbi­eter die Sprach­bear­beitung auf ein völ­lig neues Lev­el. Ein Entwick­ler zeigt, wie leicht sich damit arbeit­en lässt: Nicht nur die Tonauf­nahme in Wellen­form, son­dern auch das Tran­skript des Gesproch­enen wird auf der Bedienober­fläche angezeigt. Der Anwen­der kann den Text beliebig bear­beit­en – Wörter und Sätze abän­dern, ergänzen, aus­tauschen oder kom­plett neu hinzufü­gen. Das Pro­gramm hat sich die entsprechende Stimme im Train­ing angeeignet, und kann basierend darauf beliebige Wörter ausspuck­en.

Bitte akzeptieren Sie die Nutzung von Drittanbieter-Einbindungen mit einem Klick auf den folgenden Button:

VoCo: Jede beliebige Stimme sagt jeden beliebigen Satz

Zumin­d­est fast jede beliebige Stimme. Die Voraus­set­zung dafür, dass das neue Pro­gramm von Adobe beliebige Wörter und Sätze von ein­er bes­tim­men Stimme sprechen lassen kann, ist Ton­ma­te­r­i­al von etwa 20 Minuten. Diese kurze Zeit von Sprech­beispie­len reicht aus, um eine Stimme und ihre Sprachcharak­ter­is­tik zu simulieren. Die Soft­ware zer­legt das Mate­r­i­al dann in die kle­in­sten Lautein­heit­en der Sprache, soge­nan­nte Phoneme und tran­skri­biert sie. Basierend auf dieser von Adobe entwick­el­ten Spracherken­nung baut die Soft­ware gewün­schte Wörter und Sätze neu zusam­men. Ein Algo­rith­mus entwick­elt aus dem zuvor antrainierten Sprach­ma­te­r­i­al eine Sprach­se­quenz, die der natür­lichen Aussprache des Sprech­ers sehr nahe kommt. Dabei macht die Soft­ware beispiel­sweise logis­che Pausen zwis­chen Wörtern oder hin­ter einem Kom­ma.

Neue Möglichkeiten für Filme & Hörbücher

Auf diese Weise wür­den sich völ­lig neue Möglichkeit­en erschließen, wie beispiel­sweise O-Töne von Schaus­piel­ern in der Post­pro­duk­tion edi­tiert wer­den kön­nen. So kön­nten schnell und unkom­pliziert nachträglich Ver­sprech­er kor­rigiert oder ein paar Worte umgestellt wer­den. Ob auch die aufwändi­ge Arbeit von Syn­chron- und Hör­buch­sprech­ern bald über­flüs­sig wird? Wenn Film- und Audio­pro­duk­tio­nen in Zukun­ft mit Stim­m­mod­ellen von Syn­chron­sprech­ern arbeit­en kön­nten, kön­nten Filme und Hör­büch­er automa­tisiert von ein­er Stimme vorge­le­sen wer­den, die lediglich 20-minütige Hör­proben bere­it­gestellt hat.

soundwave_1f

Wasserzeichen schützen vor Missbrauch

Dass eine solche Manip­u­la­tion auch Risiken mit sich bringt – man denke an Pass­wortschutz per Stim­merken­nung oder an die Sprach­ma­nip­u­la­tion Promi­nen­ter, bspw. Poli­tik­er – ist dem Her­steller bewusst. Deshalb kündigte Adobe an, mit dig­i­tal­en akustis­chen Wasserze­ichen  ken­ntlich zu machen, wenn eine Sprachauf­nahme manip­uliert wurde.

Das span­nende Project VoCo ist momen­tan im Entwick­lungssta­di­um und noch nicht mark­treif. Auch der Zeit­punkt der Mark­te­in­führung ist bis­lang unklar. Vor­erst müssen wir uns also noch mit dem gewöhn­lichen Pho­to­shop für Bilder zufriedengeben.

Was denkst Du, wird VoCo einen ähn­lichen Durch­bruch erleben wie Pho­to­shop?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Das könnte Dich auch interessieren