Digital Life

Photoshop für die Stimme: Adobe Project VoCo bearbeitet Stimmen täuschend echt

14. November 2016
Anna Fresz
3 Min.

Dass Bilder mit Hilfe von Photoshop gestaltet werden, ist nichts Neues. Bald will Adobe auch eine Software anbieten, die Sprachaufnahmen statt Bildern bearbeiten kann. Das sogenannte Project VoCo ordnet aufgenommen Wörter nicht nur neu an, sondern kann neue Wörter und Sätze täuschend echt ausspucken. Eine spannende Technologie mit vielfältigen Einsatzmöglichkeiten…

Photoshop für die Stimme

Auf seiner Hausmesse „Max“ gab Adobe Einblicke in Projekte aus dem Entwicklungslabor. „Project VoCo“, eine Software zur Nachbearbeitung gesprochener Texte, soll eine Art Photoshop für Sprachaufnahmen werden. Damit bringt der Anbieter die Sprachbearbeitung auf ein völlig neues Level. Ein Entwickler zeigt, wie leicht sich damit arbeiten lässt: Nicht nur die Tonaufnahme in Wellenform, sondern auch das Transkript des Gesprochenen wird auf der Bedienoberfläche angezeigt. Der Anwender kann den Text beliebig bearbeiten – Wörter und Sätze abändern, ergänzen, austauschen oder komplett neu hinzufügen. Das Programm hat sich die entsprechende Stimme im Training angeeignet, und kann basierend darauf beliebige Wörter ausspucken.

Bitte akzeptieren Sie die Nutzung von Drittanbieter-Einbindungen mit einem Klick auf den folgenden Button:

VoCo: Jede beliebige Stimme sagt jeden beliebigen Satz

Zumindest fast jede beliebige Stimme. Die Voraussetzung dafür, dass das neue Programm von Adobe beliebige Wörter und Sätze von einer bestimmen Stimme sprechen lassen kann, ist Tonmaterial von etwa 20 Minuten. Diese kurze Zeit von Sprechbeispielen reicht aus, um eine Stimme und ihre Sprachcharakteristik zu simulieren. Die Software zerlegt das Material dann in die kleinsten Lauteinheiten der Sprache, sogenannte Phoneme und transkribiert sie. Basierend auf dieser von Adobe entwickelten Spracherkennung baut die Software gewünschte Wörter und Sätze neu zusammen. Ein Algorithmus entwickelt aus dem zuvor antrainierten Sprachmaterial eine Sprachsequenz, die der natürlichen Aussprache des Sprechers sehr nahe kommt. Dabei macht die Software beispielsweise logische Pausen zwischen Wörtern oder hinter einem Komma.

Neue Möglichkeiten für Filme & Hörbücher

Auf diese Weise würden sich völlig neue Möglichkeiten erschließen, wie beispielsweise O-Töne von Schauspielern in der Postproduktion editiert werden können. So könnten schnell und unkompliziert nachträglich Versprecher korrigiert oder ein paar Worte umgestellt werden. Ob auch die aufwändige Arbeit von Synchron- und Hörbuchsprechern bald überflüssig wird? Wenn Film- und Audioproduktionen in Zukunft mit Stimmmodellen von Synchronsprechern arbeiten könnten, könnten Filme und Hörbücher automatisiert von einer Stimme vorgelesen werden, die lediglich 20-minütige Hörproben bereitgestellt hat.

soundwave_1f

Wasserzeichen schützen vor Missbrauch

Dass eine solche Manipulation auch Risiken mit sich bringt – man denke an Passwortschutz per Stimmerkennung oder an die Sprachmanipulation Prominenter, bspw. Politiker – ist dem Hersteller bewusst. Deshalb kündigte Adobe an, mit digitalen akustischen Wasserzeichen kenntlich zu machen, wenn eine Sprachaufnahme manipuliert wurde.

Das spannende Project VoCo ist momentan im Entwicklungsstadium und noch nicht marktreif. Auch der Zeitpunkt der Markteinführung ist bislang unklar. Vorerst müssen wir uns also noch mit dem gewöhnlichen Photoshop für Bilder zufriedengeben.

Was denkst Du, wird VoCo einen ähnlichen Durchbruch erleben wie Photoshop?