Geflüsterte Sprache ist eine Form der Kommunikation, die im Regelfall nur in einem begrenzten Zeitraum verwendet wird. Flüstern kommt beispielsweise zum Einsatz, um sich vor unerwünschten Zuhörern zu schützen oder in Bereichen, in denen laute Geräusche verboten sind.

Bei klinischen Eingriffen, die auf Grund von Kehlkopfkrebs notwendig werden (sog. Laryngektomie), sind die betroffenen Personen mit dauerhaften Einschränkungen bei der verbalen Kommunikation konfrontiert. Nach dem Eingriff erlernen die Patienten eine Ersatzstimme, die bei der Lautbildung ohne den Kehlkopf auskommt. Die gelernten Ersatzstimmen sind jedoch häufig durch Heiserkeit, geringe Lautstärke und eine veränderte bzw. nicht vorhandene Grundfrequenz gekennzeichnet. Dadurch werden für Kehlkopfkrebspatienten viele Alltagssituationen erschwert und letztlich deren Lebensqualität verringert.

Sprache ohne Kehlkopf und geflüsterte Sprache haben ähnliche Eigenschaften. Deshalb hat sich die Transformation von gehauchter oder geflüsterter Sprache in stimmhafte Sprache zu einem aktiven Forschungsgebiet mit hoher praktischer Relevanz entwickelt.

Ziel dieses Projekts ist die Verbesserung der Verständlichkeit und Natürlichkeit der Stimmen von Laryngektomie-Patienten unter Zuhilfenahme geflüsterter Sprache. Dazu sollen die erzielten Fortschritte im Bereich generativer Modelle genutzt werden. 

Die verwendeten Ansätze umfassen unter anderem sogenannte Variational Autoencoder (VAE) und Generative Adversarial Networks (GAN). Da solche Systeme ursprünglich nicht zur Transformation von geflüsterter Sprache bzw. Ersatzstimmen entwickelt wurden, müssen diese in geeigneter Art und Weise (z.B. hinsichtlich ihrer Kostenfunktion und anderen Modellelementen) modifiziert werden. Anschließend können diese mit Hilfe von Sprachaufnahmen von Laryngektomie Patienten sowie Flüsterstimmen trainiert werden.