ENOM: Eingebettetes nicht-obstruktives Monitoring von Stimm- und Sprechstörungen

Vorhabensziele

Stottern ist eine allgemein bekannte Störung des Sprechens mit einer Prävalenz von ca. 5% bei Kindern und 1% bei Erwachsenen. Männliche Personen sind davon deutlich häufiger betroffen als weibliche. Die Ursache dieser Sprachstörung ist nach wie vor nicht abschließend geklärt.
Sie gilt nicht als heilbar, jedoch therapierbar. Daher haben sich Behandlungsansätze durchgesetzt, welche auf die Behandlung Symptome abzielen, wie apparative Sprechhilfen und Rhytmisierungsübungen. Dies führt zwar häufig zu schnellen Verbesserungen, jedoch kann ein dauerhafter Therapieerfolg nicht nachgewiesen werden. Die verhaltenstherapeutische Methode, die bei unserem Projektpartner, der Kasseler Stottertherapie, eingesetzt wird, zielt speziell auf flüssigeres Sprechen ab. Dies wird erreicht, in dem das gesamte Sprechen mit einer "fluency shaping" genannten Technik, modifiziert wird.

Diese Sprechtechnik wird typischerweise in einer intensiven zweiwöchigen Therapie erlernt.
Zu Beginn wird hier visuelles Biofeedback eingesetzt. Die Aussprache wird in Echtzeit analysiert und dem Sprecher wird grafisches Feedback angezeigt. Die Technik wird zunächst auf einzelnen Lauten und Wörtern erlernt, um dann auf zusammenhängende Sätze in spontanten Alltagssituationen angewendet zu werden. Nach der initialen Präsenzphase werden Klienten weiter telemedizinisch betreut.

Das Verlassen der Therapieumgebung ist ein kritischer Zeitpunk, da dies verständlicherweise zu Stress bei Klienten führt. An diesem Punkt, wäre eine lückenlose, Therapieverlaufskontrolle wünschenswert, die im Alltag der Klienten zum Einsatz kommt, ohne diese zu stören. Ziel des Projektes ist es daher, nicht-obstruktiv, also im Hintergrund die Sprache der Klienten zu analysieren, eventuelle Auffälligkeiten zu protokollieren und Therapeuten sowie Klienten möglichst objektives Feedback zum Sprechverhalten in Alltagssituationen zu geben. Um den Anforderungen an die Verarbeitung medizinischer Daten im Hinblick auf die Datenschutzgrundverordnung (DSGVO) zu gewährleisten, muss sichergestellt werden, dass Daten nur lokal verarbeitet werden und nicht an dritte Parteien zur Verarbeitung weitergegeben werden. Um ein solches System bereit stellen zu können ist es notwendig, dass Sprache auf dem Gerät verarbeitet und klassifiziert werden kann. Ein System das die Klassifikation durchführen kann muss mit zuvor aufgezeichneten und gelabelten Daten trainiert werden.
Dies stellt besondere Anforderungen an den Datensatz. Dieser muss modifiziertes Sprechen, stottertypisches anormales Sprechen und flüssige Spontansprache, unter realitätsnahen Bedingungen, enthalten. Ein Zwischenziel des Projektes ist es daher, einen umfangreich gelabelten Datensatz zu erstellen, der es ermöglicht einen Klassifikator zu trainieren. Der Klassifikator muss in der Lage sein, flüssige Sprache, modifizierte Sprache und stottertypische Symptomatik unterscheiden zu können. Dieser muss anschließend entsprechend angepasst werden, um auf mobilen Geräten zu funktionieren. Abschließend werden die so erarbeiteten Ergebnisse kombiniert, um ein Gesamtsystem zu erstellen.

Bisher durchgeführte Forschungsarbeiten und Ergebnisse

Die Grundlage für automatisierte Sprachanalyse ist häufig ein Spracherkennungssystem. Ein erster Schritt war es daher, einen Datensatz auszuwählen, welcher deutsche Spontansprache enthält. Des weiteren wurden damit ein moderner Ende zu Ende Spracherkenner trainiert und mit bewährten Methoden zur Spracherkennung verglichen. Dieser Vergleich zielte speziell auf die Nutzbarkeit von kleinen bis mittelgroßen Datensätzen zur Erkennung von Silben ab (Bayerl and Riedhammer, 2019). Die Verwendung von Wortuntereinheiten ist vor allem in paralinguistische Analysen wichtig. Außerdem wurde die Nutzbarkeit der verschiedenen Sprach- und Silbenerkennern in Hinblick auf paralinguistische Analyse verglichen und evaluiert.

Ein Ziel des Forschungsprojektes ist unter anderem die Erstellung eines umfangreich gelabelten Datensatzes, welcher geeignet sein sollte, Modelle des maschinellen Lernens zu trainieren. Dank der hervorragenden Zusammenarbeit mit unserem Projektpartner, der Kasseler Stottertherapie gelang es, im Februar 2019 eine erste aufwendig gelabelte Version dieses Datensatzes fertig zu stellen. Dieser enthält Daten von 37 Stotterern (9 weiblich, 28 männlich). Die Aufnahmen der Klienten, entstanden dabei zu unterschiedlichen Zeitpunkten im Therapieplan und zwar vor erlernen der Sprechtechnik im Intensivkurs, nach dem Intensivkurs und nach Therapieende. Explizit gelabelt wurden dabei allgemeine Unflüssigkeiten, Interjektionen, stille Blockaden, die Wiederholung von Silben und Wörtern, sowie abgebrochene Wörter und Sätze. Unseres Wissens nach, ist dies der umfangreichste Datensatz dieser Art und ermöglicht eine Vielzahl an Experimenten und paralinguistischen Analysen.

In Zusammenarbeit mit der Kasseler Stottertherapie wurden verschiedene Kennzahlen mit Bezug zu Stottern evaluiert und ein Bezug zu prosodischen Merkmalen, speziell der durchschnittlichten Lautdauer, hergestellt. Dafür wurden statistischer Analysen durchgeführt. Es konnte gezeigt werden, dass ein modifizierter Spracherkenner prinzipiell dazu verwendet werden kann, unflüssige Sprachanteile zu identifizieren. Dabei wurde der Speech Control Index (SCI) eingeführt und mit dem Speech Efficiency Score (SES, Amir et al. 2018) auf ihre Eignung in der Stottertherapie hin verglichen (Bayerl et al., 2020).

Zeitreihen sind Werte, die über ihre zeitliche Abfolge geordnet dargestellt werden. Sie zu klassifizieren und zu unterscheiden stellt eine besondere Herausforderung da. Da auch Audiodaten in den Bereich Zeitreihen eingeordnet werden könnern, wurde, bevor der gelabelte Datensatz zur  Verfügung stand, ein Exkurs in die generelle Analyse von Zeitreihen unternommen. Dabei wurde ein neuartiges System entwickelt, das mit einer Vielzahl von verschiedenen Zeitreihen umgehen kann und sehr robust ist. Für diese Verfahren wurden tiefe faltende neuronale Netze, auch Deep Convolutional Neural Networks (CNN) genannt, verwendet. Das Verfahren nutzt sogenannte Recurrence Plots, um Zeitreihen zu visualisieren und dann zu klassifizieren. Angewendet auf einen großen, weit verbreiteten Benchmarking Datensatz, konnten hervorragende Ergebnisse erzielt werden. Die Klassifikationsgenaugigkeit war überwiegend im Bereich der bisher besten Verfahren und konnte zudem in Teilen, das bisher beste System verdrängen. Prinzipiell ist es möglich, dieses Verfahren in leicht abgewandelter Form für die Unterscheidung von gestotterter und flüssiger Sprache zu verwenden.

Um den Bereich von embedded und on-device Erkennung zu untersuchen wurde mit Sicherheitsforschern der Technischen Universität Darmstadt zusammengearbeitet. Dabei wurde ein Spracherkenner so angepasst, dass er auf einem embedded System in einer abgekapselten, sicheren Umgebung ausgeführt werden konnte. Das so entstandene System löst den Interessenskonflikt, der zwischen einem Service Anbieter und dem Nutzer eines Services entsteht. Einerseits hat der Nutzer das berechtigte Interesse, dass seine Daten vor dem Zugriff durch den Serviceanbieter geschützt bleiben, andererseits möchte der Serviceanbieter nicht sein geistiges Eigentum preis geben. Gerade, wenn Modelle des maschinellen Lernens an Nutzer ausgeliefert werden, und nicht hinter einer Programmierschnittstelle (API) versteckt werden, ist es möglich, das geistige Eigentum, das sich hinter einem solchen Modell verbirgt zu stehlen. Werden Daten an den Serviceanbieter gesendet, entsteht die Möglichkeit des Missbrauchs. Das Ausführen dieser Modelle in einer sicheren Umgebung, löst dieses Dilemma.
Einerseits sind die Daten in einer solchen Umgebung vor dem Zugriff durch den Serviceanbieter geschützt, andererseits ist das Modell vor Diebstahl und Manipulation durch den Benutzer geschützt. Auf dieser Art, werden die Interessen des Serviceanbieters, sowie des Nutzers gesichert (Bayerl et al., 2019). Speziell im Hinblick auf die kommerzielle Nutzung der Ergebnisse dieses Forschungsprojektes, ist dieser Punkt interessant.

Für einen auf Android basierten Prototypen des im Projektantrag beschriebenen Systems, wurde eine Art "proof of concept" im Rahmen von zwei Workshops erstellt. Die Ergebnisse des ersten Workshops wurden im Rahmen von "Show and Tell" auf der Interspeech Konferenz 2019 in Graz veröffentlicht (Vasquez et al., 2019). Fokus der Applikation ist zwar das Erkennen von Parkinson, jedoch sind die Ergebnisse auf Stottern übertragbar, indem die Erkennungsmodelle durch Modelle ausgetauscht werden, die Stottern erkennen und stotterspezifische Sprachübungen eingepflegt werden. Die Ergebnisse eines zweiten Workshops, werden gerade noch aufbereitet und demnächst veröffentlicht.

Details zu Ergebnissen sind den angehängten wissenschaftlichen Arbeiten zu entnehmen.

Besondere Herausforderungen

Insbesondere Veränderungen am Android Betriebssystem haben dazu geführt, dass eine dauerhafte Aufzeichnung von Sprache in Alltagssituationen oder beim Telefonieren nicht mehr möglich ist. Eine embedded Analyse am Smartphone scheidet daher aktuell als Option aus, obwohl die prinzipielle Machbarkeit gezeigt werden konnte (Vasquez et al., 2019). Eine mögliche Alternative zum Smartphone wären Varianten, die vergleichbar mit modernen Sprachassistenten wie Alexa oder Google Home sind und immer zuhören. Im Gegensatz zu diesen Geräten, würden die Sprachdaten, jedoch nicht in der Cloud, sondern rein lokal verarbeitet werden. Diese Geräte müssten dann den selben Anforderungen genügen, wie die im Forschungsantrag beschriebene App. Das bedeutet, Sprechertrennung, Spracherkennung sowie Klassifikation von Sprache in die Klassen, flüssig, modifiziert und unflüssig.

Das Erstellen und vor allem das Labeln der Daten erwies sich als schwierig und machte zu Beginn nur langsamen Fortschritt. Die von uns angestrebte Genauigkeit und Vielfalt der Label, die notwendig ist, um Klassifikation außerhalb von Laborbedingungen zu ermöglichen, verzögerte den Prozess der Datensatzerstellung. Der Kreis der Personen, die konsistent stotterspezifische Sprache, sowie modifizierte Sprache labeln konnten, ist sehr klein. Durch den hohen Zeitaufwand ist der Prozess des Labelns teuer und langsam.

Ausblick

Die in (Wenninger et al., 2019) erzielten Ergebnisse zur generellen Klassifikation von Zeitreihen lassen sich mit großer Wahrscheinlichkeit auf stotterspezifische Stimmmuster übertragen. Aktuell wird an einem solchen System zur Klassifikation von Stottern gearbeitet. Sobald eine zufriedenstellende Klassifikationsrate erreicht wird, werden die Ergebnisse in einem wissenschaftlichen Journal veröffentlicht und mit der prototypischen Entwicklung eines Gerätes zur Unterstützung der Therapieverlaufskontrolle begonnen.

Eine Reihe von Experimenten, basierend auf dem System beschrieben in (Wenninger et al. 2019) führten zu interessanten Ergebnissen. Das System wurde angepasst, um statt sogenannten Recurrence Plots, Spektrogramme zur Vorverarbeitung und Klassifikation zu verwenden. Diese sind Sprache näher als Recurrence Plots, obwohl diese in abgewandelter Form weiterhin denkbar wären. Erste Experimente zur Klassifikation von Stottern können der unten stehenden Tabelle entnommen werden.

Die im folgenden kurz beschriebenen Experimente wurden auf einem Subset der erstellten Daten ausgewertet. Experiment eins und zwei verwenden Mel-Spektrogramm, das sind Spektrogramme, die auf eine perzeptuelle Skala gebracht werden, die der menschelichen Wahrnehmung von Frequenzen ähnlicher ist. Dadurch sollen für die Identifikations von Sprache notwendige Frequenzen mit höherer Genauigkeit dargestellt werden, also solche, die nicht notwendig zum Sprachverstehen sind. Die Ergebnisse dieser Experimente können der untenstehenden Tabelle entnommen werden. Experiment drei und vier zeigen Ergebnisse von Experimenten, die mit normalen Spektrogrammen durchgeführt worden. Die Genauigkeiten sind derweil als Durchschnitt über fünf trainierte Modelle zu verstehen.

Vorläufige Klassifikationsergebnisse
ExperimentAnzahl KlassenKlassenAvg. Accuracy|
Mel Spektrogramm Exp 14uf, f, m, P50,27 %
Mel Spektrogramm Exp 28uf, wm, ws, uW, uS, I, sb, m66,59 %
Spektrogramm Exp 34uf, f, m, P58,10 %
Spektrogramm Exp 48uf, wm, ws, uW, uS, I, sb, m69,20 %

Die Ergebnisse sind vielversprechend und ausgehend von den ersten Experimenten, können nun weitere Experimente entwickelt werden. Speziell Spektrogramme scheinen dabei gut zu funktionieren. Weitere Vorverarbeitungsschritte, die Merkmale verstärken, die zur Klassifikation von Stottern notwendig sind, können angewandt werden, um die Ergebnisse Schrittweise zu verbessern.

Gewonnene Erkenntnisse, speziell aus der Entwicklung des Monitoringgerätes, können zudem auf andere Pathologien übertragen werden, die durch ein kontinuierliches Monitoring der Stimme überwacht werden können, wie z.B. Parkinson, Alzheimer oder Depression.

Referenzen

  • S. P. Bayerl and K. Riedhammer, 2019. A Comparison of Hybrid and End-to-End Models for Syllable Recognition, in: Proc. Int’l Conference on Text, Speech and Dialogue (TSD)
  • S.P. Bayerl et al., 2020. Towards Automated Assessment of Stuttering and Stuttering Therapy. In: Proc. Int’l Conference on Text, Speech and Dialogue (TSD)
  • J. C. Vasquez-Correa, T. Arias-Vergara, P. Klumpp, M. Strauss, A. Küderle, N. Roth, S. Bayerl, N. Garcia-Ospina, P. A. Perez-Toro, L. F. Parra-Gallego, C. D. Rios-Urrego, D. Escobar-Grisales, J. R. Orozco-Arroyave, B. Eskofier, E. Nöth, 2019. Apkinson: a Mobile Solution for Multimodal Assessment of Patients with Parkinson’s Disease. In: Proc. Interspeech 2019. 
  • Bayerl, S.P., Frasetto, T., Jauernig, P., Riedhammer, K., Sadeghi, A.-R., Schneider, T., Stapf, E. and Weinert, C., 2020. Offline Model Guard: Secure and Private ML on Mobile Devices, in: Proc. ACM SIGDA Conference on Design, Automation and Test in Europe (DATE).
  • Wenninger, M., Bayerl, S.P., Schmidt, J., and Riedhammer, K., 2019. Timage – A Robust Time Series Classification Pipeline, in: Proc. Int’l Conference on Artificial Neural Networks (ICANN)

Projektbeginn/-ende

Mai 2018 - April 2021.

Mitwirkende

Mitwirkende:

Prof. Dr.-Ing. Korbinian Riedhammer
(Maschinelles Lernen, Spracherkennung und -verstehen)

Sebastian P. Bayerl
(Wissenschaftlicher Mitarbeiter)

Prof. Dr.-Ing. habil. Elmar Nöth
(Lehrstuhl für Mustererkennung, Friedrich-Alexander-Universität Erlangen-Nürnberg)

Dr.-Ing. Florian Hönig
(Kasseler Stottertherapie)

Fördermittelgeber

  • Bayerisches Staatsministerium für Bildung und Kultus, Wissenschaft und Kuns
  • Bayerisches Wissenschaftsforum (BayWISS)