Neue Sprachassistenzsysteme erkennen Sprache und Emotionen, aber nicht Sprecher
Einer aktuellen Pressemitteilung der Otto-von-Guericke-Universität Magdeburg zufolge entwickeln Wissenschaftler der Universität Magdeburg eine neue Generation von sprachgesteuerten Systemen, die die Identität ihrer Nutzerinnen und Nutzer verschleiern. Das interdisziplinäre Forschungsteam um den Informationstechniker Juniorprofessor Dr. Ingo Siegert vom Institut für Informations- und Kommunikationstechnik will Sprachassistenzsysteme wie Alexa oder Siri mit Hilfe von KI-Methoden so ausstatten, dass eine emotionale, dem zwischenmenschlichen Gespräch sehr ähnliche Interaktion möglich wird, die Identität des Sprechenden aber anonymisiert ist. Sprachassistenten sollen also künftig nicht nur verstehen, WAS gesagt wurde, sondern auch WIE, aber nicht, von WEM. Damit wäre künftig der sichere Einsatz von Sprachassistenten auch in datenschutzrechtlich sensiblen Bereichen wie dem Gesundheitssektor möglich.
Im Mittelpunkt des mit insgesamt 936.000 Euro vom Bundesministerium für Bildung und Forschung geförderten Verbundvorhabens Emonymous – Sprecheranonymisierung unter Erhalt emotionaler Ausdruckswirkung steht die Entwicklung eines neuartigen Sprachsynthesizers, der eine künstliche Stimme erzeugen kann. Dieser Synthesizer soll – eingebaut in Sprachassistenzsysteme – in der Lage sein, die originalen Sprachdaten des/der Nutzer*in in hochqualitative Sprachaufnahmen umzuwandeln, die die wesentlichen Sprachinformationen sowie die individuelle Sprachmelodie zwar enthalten, aber die Identität der Sprechenden nicht preisgeben.
„Für viele Interaktionen mit sprachgesteuerten Systemen ist es nicht so wichtig, zu wissen, wer genau die Anfrage stellt“, erläutert Juniorprofessor Dr.-Ing. Ingo Siegert den Forschungsansatz. Zum Beispiel, wenn ein Wecker gestellt, eine Einkaufsliste gefüllt oder eine Route geplant werde. Aber auch in diesen Situationen gebe es klare Vorteile, wenn prosodisch-emotionale Merkmale, also Intonation, Sprechrhythmus oder ein Akzent der Sprecherinnen und Sprecher, von Siri und Co erkannt werden würden. „Durch die Berücksichtigung dieser Stimmmerkmale könnten zum Beispiel bei der Routenplanung Unsicherheiten bei der Aussprache von Städtenamen besser erkannt oder Korrekturen der Einkaufsliste schneller verarbeitet werden“, so Siegert weiter. „Mit Hilfe von Methoden der Künstlichen Intelligenz wollen wir nun eine Technologie entwickeln, die aus dem eingehenden Sprachsignal die Information über die Sprecherin oder den Sprecher zwar verschleiert, aber Sprachinhalt und Sprachmelodie bzw. emotionale Merkmale erhält.“
Dazu müssten KI-Modelle nun lernen, wichtige Charakteristika der Spracherkennung als auch der Sprachmelodie und Sprachemotion zu erhalten, gleichzeitig aber die Merkmale, die für die Identifikation der Sprecherinnen oder Sprecher entscheidend sind, zu unterdrücken. „Der Erhalt der Sprachmelodie und Sprachemotion durch den Synthesizer wird dann per Hörerbewertung und Erkennungssystemen überprüft, wobei darauf geachtet wird, dass der neue Sprecher kaum Ähnlichkeit zum Ursprungssprecher hat.“
Das Team der Universität Magdeburg kooperiert in diesem Projekt mit dem Deutschen Forschungszentrum für Künstliche Intelligenz DFKI und der TU Berlin. Ein wesentlicher Partner ist darüber hinaus das Artificial Intelligence Lab der Universität Magdeburg. KI-Experten um den Informatiker Prof. Sebastian Stober arbeiten hier daran, modernste Sprachanalyse- und Synthesemodelle so zu erweitern, dass sie in der Lage sind, die Sprecheridentität unabhängig von den emotionalen Merkmalen zu verändern. „Idealerweise werden diese Informationen künftig getrennt voneinander vorliegen, bzw. über verschiedene Modelle beschrieben werden können“, so Prof. Stober. „Dann wird es uns in Zukunft möglich sein, Sprachassistenten zu benutzen, ohne dass diese die gesammelten Informationen einem Sprecher anhand seiner Sprachinformation zuordnen können.“