Von der technologischen Basis zu Anwendungspfaden

12 Projekte, die Sprach-KI in reale Anwendungen überführen

SPEECHES – Aufbau, Struktur und Forschungsfelder

SPEECHES folgt einer zweidimensionalen Struktur aus methodischen Kernprojekten (Core Projects, CP) und anwendungsbezogenen Vertikalprojekten (Verticals, V). Diese Struktur ermöglicht es, moderne KI-gestützte Methoden der Sprachverarbeitung systematisch zu erforschen und direkt in realen und versorgungsnahen Gesundheits-, Beratungs- und Sozialkontexten einzusetzen.

Die SPEECHES-Kernprojekte (Core Projects, CP)

Im Zentrum stehen fünf Kernprojekte (CP1–CP5): die Transkription atypischer Sprache, die Entwicklung von Basismodellen, Sprachmodelle für dialogische Interaktion, ressourcensparende Verfahren sowie Confidential Computing, also eine vertrauliche Datenverarbeitung. Ergänzend sichert ein eigenes Modul (CP6) die standardisierte Erhebung und -verwaltung der Forschungsdaten.

Kernprojekt 1: Erweiterte Transkription von atypischer Sprache (CP 1 - Rich Transcription of Atypical Speech)

Das Teilprojekt entwickelt fortschrittliche automatische Spracherkennung (ASR) insbesondere für atypische, spontane Sprache. Im Fokus stehen phonetisch und silbenbasiert aufgebaute End-to-End-Modelle, die eine enge Kopplung zwischen Audiosignal und Text erlauben. Ziel ist eine wortgetreue Transkription mit präzisen millisekundengenauen Zeitmarken auf Wort-, Silben- oder Phonemebene, einschließlich Pausen, Wiederholungen und Wortabbrüchen. Durch angepasste Dekodierstrategien und die Erzeugung von Netzen (Lattices) mit Wahrscheinlichkeiten werden Halluzinationen und Auslassungen reduziert und alternative Transkriptionspfade erstellt. Ergänzend werden paralinguistische Hinweise (z. B. Emotionsträger) systematisch eingebunden, damit relevante stimmliche Nuancen nicht verloren gehen. CP1 schafft so die Basis, atypische Sprache von Kindern, älteren Menschen oder Personen mit neurologischen bzw. psychischen Beeinträchtigungen präzise und reproduzierbar zu verarbeiten und liefert zentrale Bausteine für die Vertikalprojekte, wie etwa sprachbasiertes Schlaftagebuch, Online-Beratung oder hermeneutische Kodierung.

Teilprojektleitung: Prof. Dr. Korbinian Riedhammer 

Wissenschaftliche Mitarbeit: Christopher Witzl

Kernproject 2: Basismodelle für atypische Sprache (CP2 - Foundation Models for Atypical Speech)

Dieses Teilprojekt erforscht, wie moderne KI-Sprachmodelle gezielt für krankheitsbedingt veränderte Sprache verbessert werden können, etwa bei Dysarthrie, Aphasie, Parkinson oder Demenz. Im Mittelpunkt stehen transformerbasierte Modelle, die lernen sollen, ungewöhnliche Aussprache, verändertes Sprechtempo oder stimmliche Auffälligkeiten zuverlässig zu erkennen. Anders als bei der klassischen Spracherkennung geht es nicht nur um Text, sondern auch um das Erkennen und Einordnen von Sprachstörungen und deren Schweregrad. Dafür werden speziell kuratierte heterogene Datensätze mit klinischen Labels, angepasste akustische Merkmale und Methoden der erklärbaren KI (XAI) genutzt. Ziel ist ein robustes, übertragbares Fundament, das sowohl Transkription (CP1) als auch diagnostische Unterstützung und Assistenzsysteme speist. Damit stellt CP2 die Weichen für praxisnahe, faire und belastbare KI-Lösungen in allen Vertikalprojekten.

Teilprojektleitung: Prof. Dr. Tobias Bocklet

Wissenschaftliche Mitarbeit: Robert Goldbrich

Kernprojekt 3: Sprachmodelle für dialogische Interaktion (Large Language Models for Conversational Interaction)

Im Rahmen dieses Teilprojektes werden LLM-basierte Gesprächsmodelle, die offene, längere, empathische Dialoge in Gesundheits- und Beratungsszenarien verstehen und unterstützen, entwickelt. Neben Dialogzustands-Tracking und Kohärenz stehen Emotionserkennung, Informationsentnahme, Sprachvereinfachung sowie Sicherheitsmechanismen gegen Halluzinationen, Rollenausbrüche und „Jail-Breaking“ im Fokus. Das Ziel: verlässliche, erklärbare Antworten, die fachliche Standards beachten und Barrieren abbauen, insbesondere bei atypischer Sprache für digitale Unterstützung im Alltag (Ambient Assisted Living) oder Online-Beratung. CP3 erarbeitet zudem Best Practices für Auswahl, Feinabstimmung und ressourceneffiziente Bereitstellung offener Modelle, damit Lösungen datenschutzgerecht und nachhaltig betrieben werden können. Die Ergebnisse fließen direkt in eine Reihe der Vertikalprojekte (V2, V3, V5) ein und unterstützen praktikable, sichere Gesprächssysteme. 

Teilprojektleitung: Prof. Dr. Jens Albrecht

Wissenschaftliche Mitarbeit: Philipp Steigerwald

Kernprojekt 4: Ressourcensparender KI-Systembetrieb (CP4 - Low Resource Computing)

Große Sprach- und Audio-Modelle werden in diesem Teilprojekt alltagstauglich gemacht: Durch Kombinieren verschiedener Optimierungsverfahren, wie u.a. Quantisierung, Pruning, Knowledge-Distillation, werden Modelle aus den Kernprojekten 1 bis 3 so verschlankt, dass sie auf Embedded-Systemen oder Edge-Geräten, wie Mikrocontrollern oder spezialisierten Chips – also in Umgebungen, in denen Rechenleistung, Speicher und Energie stark begrenzt sind – performant und energieeffizient laufen. Zusätzlich untersucht CP4 neuromorphe Ansätze (sogenannten Spiking Neural Networks, SNNs) und integriert die Ergebnisse in ein offenes Deployment-Framework, um Latenz, Speicher und Energie kontrolliert zu managen. So können Assistenzsysteme, mobile Anwendungen und KI-basierte Stimmprothesen unabhängig von GPU-Rechenzentren nachhaltig und skalierbar betrieben werden. Dieses Kernprojekt schafft damit die technische Grundlage, KI-gestützte Lösungen aus dem Labor in den Alltag zu bringen. 

Teilprojektleitung: Prof. Dr. Cristian Axenie

Wissenschaftliche Mitarbeit: Ana Beatriz Lordeiro Barbosa 

Kernprojekt 5: Vertrauliche Datenverarbeitung (CP5 - Confidential Computing)

Sprachdaten sind personenbezogen. Die Gewährleistung der Vertraulichkeit und Integrität dieser Daten sind daher unerlässlich, gerade auch vor dem Hintergrund, dass Sprachdaten u.a. gesundheitsrelevante Informationen enthalten. Über die vertrauliche Bearbeitung durch sichere Hardware (Trusted Execution Environments -TEEs), vertrauenswürdige Cloud-Architekturen und Stimm-Anonymisierung arbeitet dieses Kernprojekt am Schutz dieser sensiblen Daten. Ziel ist, Modelle innerhalb geschützter Umgebungen zu trainieren und auszuführen, ohne dass Betreiber die Rohdaten einsehen können. Parallel wird untersucht, wie Anonymisierung Identitätsmerkmale zwar entfernt, diagnostisch relevante atypische Muster jedoch erhält, bis hin zu „Twin-Datasets“ für Forschung und Benchmarking. Ein Systemdesign mit technischer Vertrauensnachweisbarkeit ermöglicht verifizierbare Vertrauenszusagen für Datengebende und Modellanbietende. So werden klinische und sozialwissenschaftliche Anwendungen rechtlich, ethisch und technisch abgesichert und sensible Daten geschützt. 

Teilprojektleitung: Prof. Dr. Hans Löhr 

Wissenschaftliche Mitarbeit: Yannes Tallowitz

Kernprojekt 6: Datenakquise & Datenmanagement (CP6 - Data Acquisition and Management)

Dieses Kernprojekt verantwortet den datengetriebenen Unterbau: von Ethik & DSGVO-Konformität, Pseudonymisierung, Erhebungs- und Annotierungsprotokollen bis zur Analyse von Verzerrungen (Bias), statistischer Validierung und Reproduzierbarkeit. So entsteht eine sichere Dateninfrastruktur, die als zentrale Daten- und Modellplattform für alle Teilprojekte dient. Die im Forschungsverbund gesammelten Daten werden statistisch ausgewertet, um mithilfe beschreibender und inferenzstatistischer Verfahren Muster, Zusammenhänge und mögliche Ursachen zu identifizieren. Im Fokus stehen unter anderem die klinischen Anwendungen, die in den Vertikalprojekten erarbeitet werden. Abschließend wird ein übergreifendes Forschungsrahmenkonzept erarbeitet und eine gemeinsame methodische Leitlinie. Insgesamt stellt das Teilprojekt sicher, dass die Forschung rechtssicher, transparent, qualitativ hochwertig und gesellschaftlich verantwortungsvoll durchgeführt wird.

Teilprojektleitung: Prof. Dr. Christina Bartenschlager

Die SPEECHES-Vertikalprojekte

Basierend auf den Arbeiten in den Kernprojekten, realisieren die Vertikalprojekte (V1–V6) konkrete Anwendungsfälle, bei denen Sprache eine zentrale Rolle spielt, etwa sprachbasierte Schlaftagebücher, dialogische Assistenzsysteme für Menschen mit Demenz, multimodale Online-(Sozial-)Beratung, KI-gestützte Stimmprothesen sowie Lösungen zur Unterstützung hermeneutischer Kodierung atypischer Sprache.

Alle Anwendungsfälle entstehen in enger Kooperation mit Kliniken, Forschungseinrichtungen und sozialen Institutionen – damit die entwickelten KI-gestützten Lösungen dort ankommen, wo sie gebraucht werden.

Vertikalprojekt 1: Sprachbasiertes Schlaftagebuch (V1 - Speech-based Sleep Diary)

In diesem Anwendungsprojekt werden papierbasierte Schlaf-Tagebücher durch eine App mit Sprachinput ersetzt, um zu prüfen, ob Stimm-Biomarker im Abgleich mit Aktigraphie (Goldstandard) objektive Hinweise auf Schlafqualität und Müdigkeit liefern. Nutzende sprechen dazu täglich kurze Protokolle ein; durch die Arbeit in Kernprojekt 1 (CP1) werden wortgetreue Transkripte erzeugt, CP2 extrahiert akustische Merkmale, CP6 sichert Ethik, Datenfluss und Auswertung. In einer großen klinischen Studie werden Vorhersagen validiert und Benutzerfreundlichkeit untersucht. Ziel ist ein skalierbares, barrierearmes Werkzeug für Prävention, Beratung und Therapie – datenschutzkonform, alltagstauglich und wissenschaftlich belastbar. 

Teilprojektleitung: Prof. Dr. Kneginja Richter

Wissenschaftliche Mitarbeit: Mareike Müller

Vertikalprojekt 2: Dialogagenten mit integriertem Monitoring für beeinträchtigte Nutzende (V2 - Conversational Agents with Integrated Monitoring for Impaired Users)

V2 entwickelt sprachbasierte Assistenzsysteme für Menschen mit früher/milder Demenz. Neben alltagsnahen Funktionen (Erinnern, Steuern, Informieren) untersucht das Projekt unter strengen Datenschutz-Anforderungen und Berücksichtigung der Nutzendenerfahrung, wie Dialogverläufe und sprachliche Auffälligkeiten (z. B. Latenzen, Wiederholungen, Kohäsion) gesundheitliche Hinweise liefern. Hierfür tragen die Kernprojekte robuste Spracherkennungs- und Akustikmodelle bei und sichern kohärente, empathische Dialoge. Ziel ist mehr Autonomie der Betroffenen, Entlastung von Pflegenden und klinisch nutzbare Interaktionsdaten mit Fokus auf Akzeptanz, Fairness und Sicherheit. 

Teilprojektleitung: Prof. Dr. Sven Winkelmann

Wissenschaftliche Mitarbeit: Androniki Mertsiotaki

Vertikalprojekt 3: Multimodale Online-Beratung (V3 - Multi-Modal Online Counseling)

Dieses Teilprojekt macht Audio-Beratung in der psychosozialen Unterstützung zugänglicher: automatische Transkription, Inhaltsanalyse, Emotionserkennung und Sprachvereinfachung helfen, Barrieren durch z. B. geringe Literalität oder Sprachhürden abzubauen. Parallel entsteht eine Trainingsumgebung, in der Beratende mit simulierten Beratenenstimmen üben. Die Arbeiten in den SPEECHES-Kernprojekten liefern Transkript- und Stimmmerkmale, sorgen für kohärente, sichere Interaktionen mit Sprachmodellen und gewährleisten Ethik und Datenqualität. Am Ende stehen verlässliche, datenschutzkonforme Lösungen für echte Beratungsgespräche und praxisnahe Lehre mit klarer Ausrichtung auf Inklusion und Qualitätssicherung. 

Teilprojektleitung: Prof. Dr. Robert Lehmann

Wissenschaftliche Mitarbeit: Jennifer Burghardt

Vertikalprojekt 4: KI-basierte Stimmprothese (V4 - AI-based Voice Prosthesis)

V4 entwickelt personalisierte Stimmprothesen, die die Stimme von Menschen nach operativer Entfernung des Kehlkopfes natürlich und ausdrucksstark rekonstruieren. Dazu kombiniert das Vorhaben akustische Modelle und neuronale Vocoder mit ressourcensparender Ausführung. Untersucht werden Sprechenden-Einbettungen, Prosodie-Modellierung und nonverbale Hinweise, sodass Identität und Verständlichkeit idealerweise in Echtzeit auf kompakter Hardware individuell angenähert werden können. Klinische Partner unterstützen die Erprobung und Evaluation im Alltag. Ziel ist die soziale Reintegration durch naturnahes Sprechen bei maximaler Datensicherheit. 

Teilprojektleitung: Prof. Dr. Cristian Axenie und Prof. Dr. Tobias Bocklet

Wissenschaftliche Mitarbeit: Ana Beatriz Lordeiro Barbosa 

Vertikalprojekt 5: Hermeneutische Kodierung (V5 – Hermeneutic Coding)

In diesem Teilprojekt kommt die innovative Grundlagenforschung zum wissenschaftspraktischen Einsatz. Die durch die Kernprojekte entwickelten KI-basierten Spracherkennungssysteme gehen insofern über bisherige Transkriptionsprogramme hinaus, als dass sie relevante Textstellen wie Versprecher, Metaphern, wörtliche Rede sowie auffällige Sequenzen identifizieren und interpretative Deutungsvorschläge liefern können. Die Datengrundlage des Teilprojekts sind qualitative Interviews mit Menschen mit Wohnungslosigkeitserfahrungen. Ziel des Teilprojekts ist somit zunächst, atypische Sprache mithilfe der präzisen Spracherkennung zu erfassen. Darüber hinaus wird die sozialwissenschaftliche Methode des hermeneutischen Kodierens LLM-gestützt erprobt, um latente Sinnstrukturen zu rekonstruieren. Die Erprobung dessen erfolgt in einem methodisch nachvollziehbaren Prozess und unter strenger Berücksichtigung forschungsethischer Grundsätze. 

Teilprojektleitung: Prof. Dr. Frank Sowa

Wissenschaftliche Mitarbeit: Alexander Crome 

Vertikalprojekt 6: Vergleichsmaßstab für atypische Sprache, UBAS (V6 - Universal Benchmark for Atypical Speech, UBAS)

Dieses Teilprojekt entwickelt eine offene Benchmark-Plattform, UBAS, zur systematischen Bewertung von Basismodellen im Bereich Sprach- und Textverarbeitung. Ziel ist eine standardisierte, transparente und faire Testumgebung, mit der sich KI-Modelle zuverlässig vergleichen lassen. Dafür werden Datensätze aus den Teilprojekten gesammelt, aufbereitet und datenschutzkonform integriert. Aufgaben wie automatische Spracherkennung (ASR), Natural Language Processing (NLP) und Klassifikation werden abgedeckt. UBAS orientiert sich an Benchmarks, wie SUPERB und SuperGLUE, jedoch mit besonderem Fokus auf atypische Sprache. Ein öffentliches Leaderboard (Bestenliste) ermöglicht transparente Leistungsvergleiche und soll UBAS langfristig als Referenzplattform für Sprach-KI etablieren und durch wissenschaftliche Challenges, etwa im Umfeld der International Speech Communication Association (ISCA), Innovation und Qualitätssicherung fördern.

Teilprojektleitung: Prof. Dr. Christina Bartenschlager