Mit ein wenig Hilfe von PVC-Rohren täuschen Forscher in Wisconsin einige Spracherkennungssysteme vor
2024-01-08 09:00
Shimaa Ahmed ist Doktorandin an der UW-Madison. Sie untersuchte, ob es möglich ist, die Resonanz oder bestimmte Frequenzschwingungen einer Stimme zu verändern, um automatische Sprechererkennungsgeräte zu umgehen.
Ist es möglich, Computersysteme auszutricksen, die die Stimme einer Person als Passcode verwenden? Einige Ingenieure aus Wisconsin sagen, die Antwort sei „Ja“, und dass sie dies teilweise mithilfe von Kunststoffrohren erreicht hätten, die man in einem Baumarkt finden könne.
Einige Online-Banking-Systeme verwenden die automatische Sprechererkennung – einfacher ausgedrückt – die Stimme eines Kontoinhabers als Passcode. Kassem Fawaz, Professor für Elektrotechnik und Informationstechnik an der UW-Madison, sagt, dass auch Apple-iPhone-Benutzer wahrscheinlich mit dem virtuellen Assistenten Siri vertraut sind, der nur auf den Besitzer reagiert.
"Der Grund, warum Siri nur auf Sie antwortet, liegt darin, dass sie diese Technologie namens Sprechererkennung verwenden. Sie erhalten also eine Art Stimmabdruck, der einem Fingerabdruck ähnelt, und können feststellen, ob dieser von Ihnen oder jemand anderem stammt. Und so kann Siri sicherstellen, dass der Benutzer oder Besitzer des Telefons mit ihm spricht."sagt Fawaz.
Aber Fawaz und zwei UW-Madison Ph.D. Studierende sind Teil einer universitätsübergreifenden Initiative zur Verbesserung der digitalen Sicherheit. Und so haben sie nach Möglichkeiten gesucht, die Computersysteme auszutricksen. Sie und andere haben bereits daran gearbeitet, die menschliche Stimme zu klonen und einen Computer wie diese Person sprechen zu lassen.
Kürzlich, so Fawaz, hätten die Ingenieure erkannt, dass sie von digital auf analog umsteigen könnten, um viele Systeme zur Sprechererkennung auszutricksen.
"Und so kamen wir auf die Idee, eine Art analoges Gerät zu entwickeln, das über keinerlei digitale Elektronik verfügt und es einem ermöglicht, sich als andere auszugeben."sagt Fawaz.
Ph.D. Die Studentin Shimaa Ahmed sagt, sie habe zunächst versucht, durch die Pappröhre zu sprechen, die in vielen Papierhandtuchrollen zu finden sei, und dabei Prominente nachgeahmt.
"Und es hat funktioniert. Als ich einige der Stimmen von Prominenten durch diese Küchenpapierrolle geschickt habe, änderte sich die Vorhersage dieser Prominenten."Sagt Ahmed.
Schließlich kaufte Fawaz etwas PlastikPVC Rohraus dem Sanitärteile-Gang eines Baumarkts und das Team begann, es zu nutzen.
Kassam Fawaz, Assistenzprofessor am Department of Electrical & Computer Engineering am College of Engineering der University of Wisconsin-Madison, ist am 15. Februar 2022 in einem Studioporträt abgebildet. Fawaz ist einer von zwölf Empfängern des Distinguished Teaching 2022 Auszeichnung (DTA). (Foto von Althea Dotzour / UW–Madison)
Fawaz sagt, sie hätten erkannt, dass die Röhren Mängel aufwiesen.
"Normale Sanitärrohre haben feste Abmessungen, oder? Sie können die Länge steuern, indem Sie es zuschneiden. Aber Sie können den Durchmesser nicht kontrollieren. Für einige der Experimente benötigten wir Röhren mit einem speziellen Durchmesser, den Sie bei Ace Hardware nicht finden können. Was wir also tun mussten, um diese Röhren herzustellen, und der einfachste Weg, die Röhren herzustellen, besteht darin, sie in 3D zu drucken."sagt Fawaz.
Das Team wandte sich an den damaligen Studenten und heutigen Doktoranden. Student Yash Wani, der einige Röhren in 3D gedruckt hat. Wani sagt, die Arbeit habe seinen akademischen Schwerpunkt verändert.
"Ehrlich gesagt war es sehr cool, dass ich auf diese Weise meinen Doktortitel gemacht habe. Es war cool genug für mich, damit weiterzumachen,"er sagt.
Die Forscher entwickelten einen Algorithmus oder strenge Anweisungen, die die Rohrabmessungen ermittelten, die erforderlich waren, um die Resonanz – das heißt Tonintensität und -qualität – fast jeder Stimme so umzuwandeln, dass sie eine andere nachahmte.
In einer Aufnahme las Ahmed aus einem herkömmlichen Sprachdatensatz vor und klang ein bisschen wie die Schauspielerin Lisa Kudrow – Sie wissen schon, Phoebe von Freunde.
"Es war nichts auf dem Felsen,"ging die Lesung. Ahmed versuchte es auch mit einer Nachahmung der Schauspielerin Kelly Reilly, die in der TV-Serie mitspielt Yellowstone."„Ich habe keine Ahnung“, antwortete Phillip,"sagte Ahmed in der Aufnahme.
Es handelte sich nicht um exakte Nachahmungen. Aber sie waren gut genug, um durch die digitalen Angriffsfilter eines Sprachauthentifizierungssystems zu gelangen und es auszutricksen. Die Ingenieure der UW-Madison verwendeten in ihrem Experiment auch die Stimmen anderer Studenten und berichteten, dass sie in einem Test mit 91 Stimmen die Sicherheitssysteme in 60 % der Fälle täuschten.
Gut genug, um eine Arbeit zu schreiben und Ahmed die Ergebnisse diesen Monat auf einem Sicherheitssymposium in Kalifornien vorzustellen.
"Die Leute waren neugierig, wie wir Geräte wie Röhren herstellen können, aber noch komplizierter war, dass wir jede Person nachahmen können."Sagt Ahmed.
Laut Fawaz sind sich alle Hersteller von Sprecheridentifikationssystemen – Apple, Google, IBM, Microsoft und andere – der verschiedenen Mängel ihrer Technologie bewusst und versuchen, diese zu beheben.
Zu den Geldgebern der UW-Forschung zählen die National Science Foundation und DARPA – der große Forschungszweig des Verteidigungsministeriums.