Usability bei Sprachassistenten

Google hat seit Oktober pro Sekunde mehr als einen Google Home verkauft. Amazon
verkaufte vergangene Weihnachten über 20 Millionen ihrer Echo Dots. Der Economist
erklärte Amazon damit zur größten Lautsprecherfirma der Welt.

Auch in Deutschland dürfte die Millionengrenze von Geräten überschritten worden sein.
Dabei gibt es noch nicht wirklich vielversprechende Monetisierungsansätze, die
funktionieren. Voice User Interfaces wie Alexa, Siri oder Google Home haben also
schon längst den Weg in unser Zuhause gefunden. Doch gibt es noch viel Spielräume
für Optimierungen.

Größte Baustelle im Design der Sprachassistenten ist die Usability. Der Umgang mit den
Interfaces sollte für den Nutzer möglichst reibungslos ablaufen und genau das tun, was
er sich vom Assistenten erhofft. Doch welche Parameter sind maßgeblich für die
Usability bei Sprachassistenten?

Definition Usability

Bei digitalen Technologien setzt sich der Begriff Usability im Kern mit
Gebrauchstauglichkeit auseinander. Die Nutzung soll effektiv und effizient sein, während
stets die Zufriedenheit des Nutzers im Zentrum steht. Dabei wird eine hohe Usability
vom Nutzer meist nicht wertgeschätzt. Mangelhafte Usability straft man allerdings eher
mit Frustration ab und hört auf, die Technologie zu nutzen. Genauer beschreibt Usability
die Fähigkeit eines Techniksystems, welches durch eine simple und intuitive
Anwendung an die jeweiligen Nutzerbedürfnisse angleicht.

Der wohl wichtigste Antrieb zu Entwicklungen im Bereich Usability ist seit jeher die
Bequemlichkeit. So musste die Maus mittlerweile fast rückstandslos dem Touchscreen
weichen und die DVD ist durch digitale Anbieter wie Netflix und Amazon so gut wie
substituiert.

Navigationslogik, Suchfunktionalität und vor Allem Menüführung spielen seit jeher eine
zentrale Rolle bei der Annäherung an den Usability-Begriff bei Interfaces. Wie gut kann
ein Nutzer seine Ziele mit dem digitalen Produkt erreichen? Wie hoch ist die
Zufriedenheit während der Nutzung? Diese Fragen stellte man sich über die
vergangenen Jahrzehnte hauptsächlich im Umgang mit Grafikbasierten User-Interfaces.
Bei Voice muss allerdings der Begriff neu eingegrenzt werden – das gilt für die Eingabe
aber auch die Ausgabe.

Dazu reicht ein simpler Vergleich: Wenn 1000 Menschen das gleiche Wort auf der
Tastatur oder einem Touchscreen tippen bleibt die Interpretation immer gleich. Sagen
allerdings 1000 Menschen ihrem Sprachassistenten den gleichen Befehl gibt es weitaus
höhere Abweichungen in der Interpretation. Im Gegensatz zu grafikbasiertem Text, bei
dem man selbst die Geschwindigkeit, mit der man die Informationen aufgenommen wird,
bestimmt, besteht Speech nicht weiter und ist momentgebunden. Bis man sich von Siri
bei Menüs mit vielen Auswahlmöglichkeiten alle Optionen vorlesen lassen hat, vergisst
man die erstgenannten Listenitems schon wieder. Dies wirft die spannende Frage nach
einer effektiven Menüführung auf. Wie viel Auswahlmöglichkeiten können wir maximal
haben? Welche Optionen werden als erstes genannt?

Probleme und Kinderkrankheiten

Um auf die maßgeblichen Variablen der Usability bei Voice User Interfaces zu
schließen, lohnt es sich, eine Bestandsaufnahme der größten derzeitigen Probleme
vorzunehmen. Dabei kommt natürlich zunächst die technische Präzision und der
Funktionsumfang von Siri und co. Ins Gedächtnis. Sprich: Wie gut ist die Recognition?
Für die Usability ist diese ein zentraler Faktor, doch entwickelt sich die Genauigkeit und

das Tempo der Spracherkennung rasant. Die jetzigen Probleme resultieren einzig und
allein daraus, dass die Technik noch in den Kinderschuhen steckt. Es ist davon
auszugehen, dass die Recognition früher oder später optimiert wird und keine Barriere
mehr für den Nutzer darstellen wird. Nach den Entwicklungssprüngen der letzten Jahre,
eher früher.

Was den künstlichen Intelligenzen hinter unseren Sprachassistenten allerdings vermehrt
noch nicht gelingt ist es zu antizipieren, ob ein Kontext gehalten oder gewechselt
werden soll. Perfekt wäre, wenn sie dazu in der Lage wären, Kontext auch über lange
Zeit zu halten. So wäre es dem Interface möglich, selbstreferenzielle Anfragen zu
bearbeiten und beispielsweise die gleichen Schuhe, die man schon letzten Winter
gekauft hat, nochmal zu kaufen – nur diesmal bitte in Gelb.

Es könnte außerdem in Zukunft bedeutender werden, tatsächliche Konversationen mit
den Voice Interfaces zu führen. Das ist heute noch eher Wunschdenken, denn die
Interaktion verläuft doch weitestgehend zielstrebig und nach abgesteckten Mustern,
anstatt dass sich eine Unterhaltung mit der Technologie ergibt. So verzichten Nutzer
beispielsweise auf Füllwörter und reduzieren Eingaben auf das wesentlichste: „Siri –
Wetter!“. Auch wird der Nutzen für „Bitte“ und „Danke“ im Umgang mit
Sprachassistenten nicht ersichtlich. Um eine Konversation zu Stande zu bringen,
müssen sich die Designer der Voice User Interfaces entscheiden, ob man
Umgangssprache in die Technologie mit aufnimmt oder eher auf klare,
unmissverständliche Befehle setzt. Hier stehen sich allerdings die Zielstrebigkeit und die
Bequemlichkeit als zwei wichtige Werte gegenüber und man wird wohl durch Tests für
den Nutzer gewichten müssen, oder die Sprachassistenten so designen, dass sie sich
auf die verbalen Muster und Gewohnheiten ihrer Nutzer anpassen.

Die richtige Interpretation von Befehlen stellt für die Sprachassistenten noch eine Hürde
dar. Was genau meint der Nutzer? Das ist für die sprechenden Helfer noch nicht immer
klar, weswegen frustrierende Antworten entstehen können. So schlägt Alexa
beispielsweise auf die Frage „Was fressen Igel?“ das Restaurant zum Igel vor und bietet
an, einen Platz zu reservieren. Auch können gleichbedeutende Eingaben wie „Wann ist

Fasching?“ und „Wann ist Karneval?“ oftmals nicht ausreichend interpretiert werden und
so hat Siri nur auf eine der beiden Fragen eine zufriedenstellende Antwort parat.

Besonders wenn es darum geht, kurz etwas nachzuschlagen, werden oft
Sprachassistenten genutzt. Sie helfen dabei entweder mit Direct Answers oder einer
Weiterleitung in eine Suchmaschine weiter. Direct Answers können dabei viel schneller
vom Nutzer aufgenommen werden und stellen keinen Umweg dar. Besonders Google ist
hier weit vorne und kann mit der stärksten Suchmaschine der Welt im Rücken mit einer
Vielzahl an Direct Answers glänzen.

Was definiert Usability? Zentrale Parameter

Als bedeutender Parameter für die Usability bei Sprachassistenten ist auf jeden Fall die
Niedrigschwelligkeit zu nennen. Es muss dem Nutzer möglichst umstandsfrei ermöglicht
werden, seine Ziele schnell zu erreichen. Dazu ist viel Antizipation seitens der
künstlichen Intelligenz hinter dem Voice User Interface nötig. So wird es in Zukunft
wichtig sein, mehrere Transaktionsschritte schon zusammen zu fassen, um
Transaktionen möglichst komfortabel für den Nutzer zu gestalten. Es ist durchaus
denkbar, dass auf den bloßen Befehl „Ich möchte neue Schuhe“ schon eine
weitgreifende Antwort folgt: „Es gibt rote Schuhe von Nike derzeit im Angebot. Ich
schicke sie dir in deiner Größe zu, wenn sie dir nicht gefallen, werden sie kostenlos
wieder abgeholt.“ Sollte diese Form der Niedrigschwelligkeit tatsächlich Realität werden,
werden sich werbetreibende Firmen um die obersten Listenplätze überbieten wollen.

Weitere Einflussfaktoren wären Sprachcharakteristika: Inwiefern entspricht die
Sprachausgabe gelernten Mustern und unseren Erwartungen? Sprachassistenten
werden immer mehr ein Customer Service Behaviour an den Tag legen. Bekanntes
Vokabular und freundliche, unterstützende Kommunikation wird den Nutzer eher
zufriedenstellen und trägt zur Niedrigschwelligkeit bei, da Nutzer nicht erst eine eigene
Eingabesprache erlernen müssen. Dieser Aspekt hängt auch eng mit der Persona
zusammen, der Persönlichkeit des Sprachassistenten. Diese bezeichnet die

Charakteristika der Sprachausgabe wie Stimme, Artikulation, Pitch und Sprachlicher Stil
der Eingabeaufforderungen. Auch der Humor und die Geschwätzigkeit eines Voice User
Interfaces lässt sich unter der Persona zusammenfassen. So ist die Persona bei Voice
bedeutungsähnlich mit Farbe und Font bei grafischen User Interfaces.

Als oberster Maßstab der Usability steht doch letztendlich die Zufriedenheit, die ein
Nutzer im Umgang mit einem Sprachassistenten erfährt, im Mittelpunkt.

Moritz Luppold | Hochschule der Medien, Stuttgart
Digital Media Technologies | Prof. Dr. W. Gruel | WS17/18