Sprachassistenten: Wohin führen uns diese mysteriösen Stimmen eigentlich?

Wer momentan an Werbeplakaten zu Google’s Sprachassistenten vorbeigeht, fragt sich vermutlich, wohin dieses Wettrüsten der Sprachassistenten noch führt. Beinahe jährlich werden die digitalen Begleiter mit neuen Features und besseren Fähigkeiten ausgestattet. Werden wir letztendlich mit einer homogenen Reihe an Sprachassistenten verbleiben, die alles perfekt beherrschen, oder sehen wir uns einer wilden Flora an kleineren Assistenten gegenüber, die stark spezialisiert, aber allgemein schwächer sind, allerdings in symbiotischen Verhältnissen zu einander stehen? Oder wird es gar anders aussehen?

Symbiose

Dass etablierte Sprachassistenten wie Amazons Alexa und Microsofts Cortana einzigartige Stärken, aber auch genauso individuelle Schwächen besitzen, ist kein Geheimnis. Während Alexa in den Themenarealen Shopping, Entertainment und als Begleiter außerhalb der Arbeitsumgebung Exzellenz unter den Sprachassistenten zeigt, liegen die Stärken von Cortana in der Organisation des Tagesablaufs und der Unterstützung der Produktivität des Nutzers.

Im Mai 2018 kündigten die Hersteller der beiden Assistenten daher eine Kollaboration an: Man soll zukünftig via Amazon Echo nicht nur Alexa ansprechen und kommandieren können, sondern ebenfalls Cortana aufrufen können. Komplett mit Cortanas Stimme.

Diese Form der Symbiose soll so besonders Alexa stärken, ist allerdings auch ein Zeichen, dass Cortana wahrscheinlich nicht auf der Wettbewerbsbühne expandieren wird. Wahrscheinlicher ist daher ein Fokus auf die Vertiefung bekannter Themen bei Cortana.

Ähnlich wie Alexa und Cortana besitzen auch die populärsten Sprachassistenten, Google Assistant und Siri, Schwächen und Stärken. In die dadurch resultierenden Lücken setzen sich jetzt eine neue Generation an Sprachassistenten, die häufig nur wenige Sachen können, diese dafür allerdings sehr viel besser als allgemeine Sprachassistenten wie die von Google, Apple und Co.

Firmen wie das US-amerikanische Soundhound, deren Assistent Hound besonders bei komplexen Fragen und Befehlen glänzt, hoffen dabei entweder auf Marktteilnahme neben Giganten wie Amazon, indem sie das eigenen Framework lizensieren. Dies erlaubt Konzernen, die von Spracherkennung und -befehlen profitieren würden, die Technologie von Soundhound zu nutzen, ohne die Ressourcen für die Entwicklung eigener Technologie aufzuwenden.


Stimmen und Embodiment

Während für Hersteller von mobilen, smarten Geräten in lieu physischer Manifestation vor allem die Stimme als Avatar der Persönlichkeit gilt, haben Unternehmen aus Branchen wie Smart Home und Automotive die Möglichkeit, der Persönlichkeit der Assistenten visuell unter die Arme zu greifen. Ob physisch oder digital, man spricht dabei von Embodiment, dem Verleihen einer visuellen Formsprache.

Amazon Echo

Das Embodiment kann verschiedene Formen annehmen: Amazon kann Alexa durch das Design der Echo-Produkte gröbere Charaktereigenschaften mitgeben. So wirkt der Sprachassistent nicht auf die Spitze getrieben feminin, sondern eher neutral und offen, gebildet und sympathisch.

Amazon Echo der 2. Generation. Quelle: expertreviews.co.uk

Jibo

Ein gutes Beispiel von überspitztem Embodiment ist Jibo. Jibo ist ein neugieriger und stets freudiger Fünfjähriger im niedlichen Körper einer Tischlampe. Durch Rotation der drei Körperteile kann der spaßige Roboter unter anderem tanzen, fragend den Kopf neigen und dank des Auges im Display blinzeln und weitere Emotionen zeigen.

Zwar sind Jibos Funktionen beschränkt und bei weitem nicht so ausgearbeitet wie solche von Konkurrenten, allerdings kann Jibo dank seiner physischen Form mit Charme überzeugen.

Jibo. Quelle: jibo.com

Nio Nomi

Auch die Automotive-Industrie sieht in Sprachassistenten viel Potential. Für viele gelten unsere vier-rädrigen Begleiter schon jetzt als Familienmitglieder, eine einfachere Plattform kann man sich nicht wünschen. Im Gegensatz zu Smartwatches und Smartphone, und nicht zuletzt aufgrund der Langlebigkeit und des nicht existierenden Zwangs der Portabilität, können KI’s in Autos auch physische Formen annehmen. Ähnlich wie Jibo soll auch die KI des chinesischen Elektrofahrzeugherstellers Nio vor allem als sozialer Companion empfunden werden. Nomi — so wurde Nio’s KI getauft– kann dank eines Displays über der zentralen Konsole des Autos eine erstaunlich große Vielzahl an menschlichen Emotionen simulieren und im Menschen erwecken. Zwar kommt man sich vor wie Luke Skywalker mit einem Droiden im Raumschiff, aber wer kann sich diesen niedlichen Augen noch verwehren?

Nio’s Nomi. Quelle: Wall Street Jounal

Eine Prognose

Die technologisch größten Sprünge auf dem Gebiet der Sprachassistenten geschehen allerdings nach wie vor bei den Marktführern. So stellte Google im Mai 2018 eine Demoversion des Google Assistants vor, welcher selbständig Telefonate mit Menschen führen konnte und dies mit einer solchen Authentizität, dass die Menschen am anderen Ende den Anrufer nicht als Künstliche Intelligenz ausmachen konnten. Google Duplex, so nannte sich die Demoversion, basierte seine Menschlichkeit neben der Emulation menschlicher Sprechweise unter anderem auf das regelmäßige Einstreuen von Füllwörtern wie suchenden Ähms und bestätigenden Mhhms.

Will man den Nutzern das Gefühl geben, man spreche mit einem echten Menschen oder muss die Maschine als solche erkennbar sein?

Dass es sich hierbei um das willkürliche Täuschen von Menschen handelt und die Möglichkeit zum Missbrauch unerhört nahe steht, ist offensichtlich. Eine der größten Fragen bei der Gestaltung von Sprachassistenten in den nächsten Jahren muss daher die Frage nach der Ethik sein: Will man den Nutzern das Gefühl geben, man spreche mit einem echten Menschen oder muss die Maschine als solche erkennbar sein?


Lust auf mehr?

www.thinkmoto.de

think moto arbeitet zur Zeit u.a. mit einem führenden Automobilhersteller an der künftigen Persönlichkeit des Sprachassistenten im Fahrzeug. think moto entwickelt markenadäquate Conversational User Interfaces für Sprachassistenten und Chatbots und beschäftigt sich auch mit Fragen der Visualisierung und des Embodiment von Sprachassistenten.

Die Neuauflage des Standardwerks der digitalen Markenführung Branded Interactions — Lebendige Markenerlebnisse für eine neue Zeit
von Marco Spies und Katja Wenger erscheint im September 2018 im
Hermann-Schmidt-Verlag.

Um unsere Website optimal gestalten und fortlaufend verbessern zu können, verwenden wir Cookies. Durch die weitere Nutzung der Website stimmen Sie der Verwendung von Cookies zu. Details