Wie sind die User Interfaces von Sprachassistenten aufgebaut?

Conversational-User-Interfaces (CUI) beziehungsweise Voice-User-Interfaces (VUI) ersetzen bei Sprachassistenten das GUI (Graphical-User-Interface). Damit diese Systeme auf die unterschiedlichsten Fragen und Formulierungen reagieren können, muss der Nutzungskontext entsprechend verknüpft werden. Dies ist der grundlegende Unterschied eines CUIs zu einer grafischen Oberfläche (GUI). Bei einer GUI bilden die jeweiligen Fenster, Menüs und Dialogflächen einen Kontext, den das das Computerprogramm einfach erkennt. Bei Sprache – insbesondere bei dialogorientierter Sprache – bildet sich der Kontext aus den jeweiligen Sätzen. Hier muss das Programm per NLP (Natural Language Processing) deutlich flexibler auf Kontextänderungen reagieren können als bei klassischen grafischen Oberflächen.

Wie funktionieren sprachgesteuerte Dialogsysteme?

Grundsätzlich nutzen Dialogsysteme NLP zur Analyse von Sprache in Textform und um das Anliegen (Intent) des Benutzers zu verstehen. Nachdem die Intents erkannt wurden, wird über dahinterliegende API Verbindungen die benötigte Aktion ausgeführt und als Feedback an den User zurückgegeben. Das NLP basiert hierbei immer auf Text in unterschiedlichen Sprachen. Für die Umwandlung von gesprochener Sprache werden TTS (text to speech) Engines genutzt, die als Ergebnis einen durch NLP nutzbaren Text aus Sprache erzeugen. Bei der Ausgabe wird entweder Text genutzt oder der Text wird per STT (speech to text) Engine wieder in gesprochene Sprache umgewandelt.

Mögliche Zugangs- und Ausgabemedien zu virtuellen Assistenten

Grundsätzliche gibt es eine Vielzahl von möglichen Eingangspunkten zu virtuellen Assistenten. Vorteilhaft ist, dass alle Eingangspunkte mit Sprache arbeiten. Daher müssen nur die Eingangsknoten definiert werden, die Verarbeitung und Informationsbeschaffung bleiben identisch. Dies spart gerade bei vielen unterschiedlichen Zugangswegen Entwicklungszeit und schont das Budget.

  • Telefon / Dial-in
  • Mikrophone am POA/POS
  • Apps & Websites als Chatbot oder Sprachsystem
  • Textnachrichten (SMS, WhatsApp, Telegram)
  • Sprachnachrichten (WhatsApp, Facebook)
  • Social Media (Facebook/Twitter/Instagram)
  • Briefe und Faxe per OCR

Zwei weitere Sprachassistenten: Google Home Mini und Siri

Wie funktioniert Natural Language Processing (NLP)?

Allen Natural Language Processing-Ansätzen ist gemeinsam, dass sie die Hierarchien beachten, die die Zusammenhänge zwischen den einzelnen Wörtern bestimmen. Das ist schwierig, denn viele Worte haben doppelte Bedeutungen: „Einstellen“ zum Beispiel kann bedeuten, dass man jemandem einen Job gibt, aber auch, dass ein Prozess beendet wird („er stellte seine Arbeit ein“). Oder es bezieht sich darauf, dass man ein Gerät richtig einstellen muss, um das gewünschte Resultat zu bekommen. Aus diesem Grund ist das Natural Language Processing einer der kompliziertesten Bereiche der Informatik. Sprache ist oft doppeldeutig, und sie zu verstehen, erfordert ausführliches Wissen über den Kontext, in dem sie verwendet wird. Um Computern natürliche Sprache beizubringen, nutzen Computerlinguisten die Erkenntnisse der verschiedenen Sprachwissenschaftsbereiche:

  • Die Morphologie beschäftigt sich mit der Zusammensetzung von Wörtern und deren Beziehungen zu anderen Wörtern.
  • Die Syntax definiert, wie Wörter zu Sätzen zusammengefügt werden.
  • In der Semantik geht es um die Bedeutung von Wörtern und Gruppen von Wörtern.
  • Mithilfe der Pragmatik wird der Kontext von sprachlichen Äußerungen in den Blick genommen.
  • Die Phonologie schließlich beschäftigt sich mit dem akustischen Aufbau gesprochener Sprache und ist wichtig für die Spracherkennung.

NLP wird mittlerweile außerdem sehr oft durch Deep Learning Systeme unterstützt, welche auf Basis von großen Datenbeständen Sprachregeln, Kontext und Sprachgebrauch analysieren und für Computersysteme nutzbar machen.

Häufige Fragen zu Sprachassistenten

Wird immer eine Onlineverbindung für Sprachassistenten benötigt?

Grundsätzlich gibt es auch Systeme (TTS, STT und NLP), die ohne Onlineverbindung und auch mit beschränkter Rechenleistung auskommen. Wir haben bereits einige Projekte in solchen Setups durchgeführt und die Resultate sind zufriedenstellend.

Gibt es bei Sprachassistenten ein Datenschutzproblem?

Grundsätzlich müssen Sprachassistenten auf bestimmte Wörter für die Aktivierung der Sprachinteraktion (z. B. “Ok, Google”, “Alexa”, …) reagieren. Dafür müssen Sie immer die Geräusche in Ihrer Kulisse analysieren oder es gibt Buttons oder Gesten, welche den Assistenten aktivieren. Bei einer dauerhaften Abhörung des Raums sind Datenschutzproblematiken sehr wahrscheinlich, gerade in öffentlichen Räumen wie Filialen oder Transportmitteln muss daher beim Einsatz von Sprachassistenten das Thema Datenschutz frühzeitig einbezogen und geprüft werden.


Unser Fazit zu Sprachassistenten

Die natürliche Eingabe auf Basis von menschlicher Sprache ist eine großartige Art, um mit Computern zu interagieren. Gerade technisch weniger affine Personen können so sehr zielgerichtet und effizient mit Software arbeiten. In den Bereichen Customer Care, eCommerce, Gebäudesteuerung, Messen und vielen anderen Bereichen bieten die aktuellen Möglichkeiten der Sprachassistenten bereits erhebliche Mehrwerte für Unternehmen und Konsumenten.

Sie planen einen Sprachassistenten?

Dann nehmen Sie gleich Kontakt auf. Wir haben Erfahrung in der Konzeption und Umsetzung von Sprachassistenten und beraten Sie gerne unverbindlich.

Ihr Berater:
Bernhard Herbst
+49 511 169 299-12
herbst@thisisdmg.com

Mehr zu unseren Leistungen im Bereich Voice Assistance finden Sie auf unserer Leistungsseite Chatbot & Voice Interface