Amazon Alexa

Leiter der Alexa Entwicklung in Deutschland im Interview Wie Alexa aus Fehlern lernt: Ein Interview mit Philipp Berger

Wie funktioniert die Spracherkennung bei Alexa? Wie kommt es zu Missverständnissen und wie lernt Alexa dazu? Diese und mehr Fragen stellen sich viele Nutzer. Im Gespräch mit Philipp Berger, Country Manager Alexa für Deutschland und Österreich haben wir herausgefunden, wie es zu Missverständnissen mit Alexa kommt und sie lernt, besser damit umzugehen.

David Wulf
10.12.2022

Alexa lernt automatisch dazu, um Missverständnisse immer weiter zu reduzieren ( Anna Quelhas / Adobe Stock )

Inhalt

Leiter der Alexa Weiterentwicklung Philipp Berger im home&smart Interview

Leiter der Alexa Weiterentwicklung Philipp Berger im home&smart Interview

In dem Interview zwischen Philipp Berger, Country Manager Alexa Deutschland/Österreich und unserem Geschäftsführer David Wulf ging es um Missverständnisse der Sprachassistentin sowie ihrem Lernverhalten:

DW: Hallo Herr Berger, in welchen Situationen nutzen Sie Alexa privat bei sich zu Hause?

PB: Natürlich teste ich viele neue Features von Alexa zu Hause, da ich die Weiterentwicklung von Alexa und den Echo-Geräten hier in Deutschland leite. Privat wäre das vor allem die Steuerung von Musik, da mein komplettes Haus über Echo-Lautsprecher verfügt.

Natürlich steuere ich auch verschiedenste Geräte wie unser Licht und den Fernseher. Alexa übernimmt darüber hinaus auch kompliziertere Aufgaben. Mit einer Routine steuere ich die Bewässerung unseres Gartens. Denn die Steuerungslösung, die mein Gartenbauer vorschlug, war deutlich komplizierter, als diese Tätigkeit von Alexa übernehmen zu lassen.

DW: Manchmal hört Alexa scheinbar nicht richtig zu oder reagiert falsch. Wie kommt es zu diesen Missverständnissen?

PB: Spracherkennung ist ein sehr komplexes Thema, denn es setzt sehr viel Kontext-Wissen voraus. Um welches Thema geht es in der Unterhaltung? Wer sind die Gesprächspartner? Was wurde vielleicht in früheren Gesprächen schon an Informationen mitgeteilt und wird daher als Grundwissen vorausgesetzt?

Wir Menschen machen das sehr intuitiv, aber eine künstliche Intelligenz wie Alexa muss dieses Wissen natürlich erst einmal bekommen und dann richtig verwenden. Wir haben da bereits viele Fortschritte gemacht und sind immer dabei, das Nutzererlebnis mit Alexa zu verbessern. Trotzdem kann es natürlich passieren, dass Alexa etwas anders versteht, als es vom Nutzer gemeint wurde.

Philipp Berger ist Leiter der deutschen Weiterentwicklungsabteilung von Alexa (Amazon)

DW: Inwiefern spielt hier auch die Aussprache eines Sprachbefehls eine Rolle?

PB: In der Tat sind akustisch ähnliche Sprachbefehle für uns eine große Herausforderung. Wenn z. B. ein Nutzer nach dem Wetter in Schweinfurt fragt, hört sich das mitunter sehr ähnlich an wie Steinfurt. Dort kann es also leicht zu Verwechselungen kommen. Alexa muss ja darüber hinaus auch Akzente, Dialekte und Umgangssprache verstehen, die oftmals innerhalb einer Sprache sehr verschieden sind.

DW: Was war Ihr kuriosestes Missverständnis bei der Alexa-Nutzung?

PB: Ich erinnere mich, dass meine Kinder Alexa gebeten haben, ein Lied abzuspielen. Teilweise ist es so, dass selbst ich nicht verstehe, welches Lied sie sich wünschen, Alexa aber das richtige Lied abspielt. Manchmal ist es auch andersrum, dann verstehe ich, welches Lied sich meine Kinder wünschen, aber Alexa spielt ein anderes Lied ab. Das erinnert mich immer wieder daran, dass auch wir Menschen uns manchmal missverstehen.

DW: Wie oft treten solche Alexa-Missverständnisse in Deutschland auf und welche sind am häufigsten?

PB: Eine genaue Zahl zu Missverständnissen haben wir gar nicht, denn das wäre schwierig zu ermitteln. Denn Alexa erfährt ja nicht immer, dass es sich um ein konkretes Missverständnis handelt. Zwar gibt es Möglichkeiten, die Wahrscheinlichkeiten für ein Missverständnis zu ermitteln. Zum Beispiel, wenn der Nutzer Alexa schnell nach einem Sprachbefehl unterbricht und diesen wiederholt. Jedoch können wir das immer nur zu einer gewissen Wahrscheinlichkeit sagen.

Ich persönlich vermute, dass die meisten Missverständnisse im Bereich der Musiksteuerung auftreten. Es gibt Millionen von verschiedenen Songs in unterschiedlichen Versionen. Diese werden von Menschen mit unterschiedlichen Akzenten ausgesprochen.

DW: Wo sehen sie Herausforderungen im Alltag, durch die Alexa das Aktivierungswort nicht zuverlässig erkennt?

PB: Alexa soll natürlich nur geweckt werden, wenn das Aktivierungswort vom Nutzer gesprochen wird. Die Identifizierung des Aktivierungswortes findet ausschließlich lokal auf dem Echo-Gerät statt, wo auf das phonetische Muster des Aktivierungswortes geachtet wird. Erst wenn das Aktivierungswort erkannt ist, wird es an die Cloud gesendet und dort nochmals verifiziert. Das muss unheimlich schnell gehen, denn im Falle der Aktivierung soll Alexa den anschließenden Sprachbefehl direkt umsetzen.

Auf den lokalen Echo-Geräten haben wir eine ganz andere Rechenleistungen zur Verfügung als in der Cloud. Neuere Prozessoren und Algorithmen ermöglichen uns aber eine immer zuverlässigere lokale Analyse.

Sollte Alexa zu häufig unerwünscht aktiviert werden, empfehle ich, das Aktivierungswort in Computer, Echo oder Ziggy zu verändern.

DW: Warum kann Alexa unsere Befehle manchmal nicht richtig zuordnen?

PB: Nachdem Alexa aktiviert wurde, muss sie als nächstes die Intention des Nutzers verstehen. Wenn jemand „Alexa, Ghostbusters“ sagt, muss Alexa entscheiden, ob der Nutzer den Soundtrack hören möchte, Informationen über Ghostbusters verlangt oder doch etwas ganz anderes möchte, was sich so ähnlich anhört. Hierfür nutzen wir viele Kontext-Informationen. Wird beispielsweise ein Echo-Gerät mit Bildschirm gefragt, könnte der Nutzer eher den Film schauen wollen.

DW: Manchmal sagt Alexa auch direkt, dass sie Verständnisprobleme hat. Wie entscheidet sie das?

PB: In diesem Fall hat Alexa Hypothesen aufgestellt, was der Nutzer mit seiner Anfrage tatsächlich erreichen wollte. Dazu ziehen wir Kontextinformationen heran, beispielsweise den Wohnort des Nutzers oder seine zuletzt gespielte Musik. Wenn keine sinnvolle Hypothese gebildet werden kann, meldet Alexa zurück, dass sie den Nutzer nicht verstanden hat. Alternativ bittet sie um mehr Klarheit oder Feedback, ob sie den Nutzer korrekt verstanden hat.

DW: Kann ich als Nutzer nachschauen, wie Alexa mich verstanden hat?

PB: Ja, das geht in der Alexa App. Diese Möglichkeit haben wir für eine größere Transparenz und zum Schutz der Privatsphäre entwickelt. Hier können Nutzer transparent einsehen, welche Daten an Alexa gesendet wurden. Es ist sogar möglich, erneut anzuhören, was man zu Alexa gesagt hat. Mir selbst ist manchmal gar nicht bewusst, wie missverständlich meine eigenen Anfragen sind. Insofern können sich Missverständnisse damit erklären.

Es gibt darüber hinaus die Möglichkeit, Alexa mitzuteilen, ob sie korrekt oder falsch verstanden hat. Diese Informationen verwendet Alexa, um kontinuierlich zu lernen und besser zu werden.

DW: Wie lernt Alexa aus diesen Missverständnissen?

PB: Je mehr Nutzer mit Alexa kommunizieren, desto besser versteht Alexa sie. Denn mit diesen Daten trainiert Alexa ihr Sprachmodell. Wir berücksichtigen direktes Nutzerfeedback und verwenden darüber hinaus anonymisierte Datenschnipsel, die von Spezialisten ausgewertet werden. Damit verifizieren wir durch Menschen, ob Alexa einen Befehl richtig verstanden und ausgeführt hat. Denn ähnlich wie wir Menschen lernt eine künstliche Intelligenz erst durch Feedback. Unsere Kunden haben aber auch die Möglichkeit, der Auswertung ihrer Sprachbefehle in den Datenschutzeinstellungen zu widersprechen.

DW: Was tut Amazon, um die Kommunikation zwischen Mensch und Alexa zu verbessern?

PB: Wir arbeiten zurzeit an einer ganzen Reihe von Themen, die die Algorithmen hinter dem Sprachmodell von Alexa verbessern sollen. Es geht um Automated Speech Recognition und Natural Language Understanding. Weiterhin soll Alexa proaktiver Routinen und Timer vorschlagen, weil wir merken, dass Nutzer viele Alltagsaufgaben darüber lösen.

Eine weitere Priorität liegt in Alexas Selbstlernfähigkeiten, welche sie von Nutzern durch implizites Feedback erhält. Wenn ein Nutzer beim Sprachbefehl „Alexa, Ghostbusters“ ihre Reaktion mehrmals korrigiert, dann soll Alexa ihre zukünftige Reaktion darauf schneller anpassen.

DW: Was können Alexa-Nutzer tun, um Kommunikationsprobleme zu vermeiden?

PB: Je länger Alexa verwendet wird, desto besser kann sie sich auf die Gewohnheiten der Anwender einstellen. Über die Zeit passen sich unsere Systeme an und lernen dazu.
Weiterhin empfehlen wir, dass Alexa-Nutzer eine Stimm-ID einrichten. Damit kann Alexa verschiedene Nuzter von einander unterscheiden und Kontextinformation wie zum Beispiel die Musikpräferenzen und Songhistorie aus Amazon Music oder häufige Kontakte verwenden, um Sprachbefehle für die Musiksteuerung und das Telefonieren besser zu interpretieren.

Die mit * gekennzeichneten Links sind sogenannte Affiliate Links. Kommt über einen solchen Link ein Einkauf zustande, werden wir mit einer Provision beteiligt. Für Sie entstehen dabei keine Mehrkosten.
Wir haben Kooperationen mit verschiedenen Partnern. Unter anderem verdienen wir als Amazon-Partner an qualifizierten Verkäufen.

Autor David Wulf

David Wulf ist Unternehmer, SEO-Berater und Coach. Er arbeitet unter anderem als Geschäftsführer und SEO-Verantwortlicher bei homeandsmart GmbH in Karlsruhe, Deutschland.

Neues zu Amazon Alexa