Loading...

Die wesentlichen Begriffe von A bis Z

Glossar zu Conversational User Interfaces und Intelligenten Assistenten

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.

A

Eine Google Action ist eine Softwareapplikation für den Google Assistant. Ein strukturelles Analogon der Google Action ist der Skill für Amazons Alexa. Skills und Actions funktionieren ähnlich wie Apps für Mobile Devices. Die Auffindbarkeit ist allerdings derzeit in den Skill Stores noch unterentwickelt, Skills sind aktuell also noch schwerer auffindbar als Apps im Appstore.

Adobe XD ist ein Tool zur Konzeption von Interaktiven Anwendungen. Mit XD lassen sich komplexe Prototypen für Apps entwickeln. Gleichzeitig baut XD seine Möglichkeiten zur Entwicklung von Voice Prototypen aus.

Adversarial Attacks sind Inputs in ein Machine Learning-Modell, die erstellt werden, um einen Fehler im System auszulösen. Sie funktionieren wie optische Täuschungen für Maschinen. Bei CUIs sind es akkustische Informationen, die Angreifer einschleusen. Adversarial Attacks sind eines der Sicherheitsprobleme im Bereich AI. Problematisch ist vor allem, dass damit u.U. der Sprachsteuerung Befehle erteilt werden können, ohne dass der Nutzer es weiß.

Alexa ist der Name des von Amazon entwickelten Assistenten. Alexa ist auf den Amazon-eigenen Smartspeakern "Amazon Echo", "Echo Show" und "Echo Dot" verfügbar. Alexa gibt es auch als Smartphone-App. Zudem wird Alexa auch an andere Unternehmen lizenziert und ist so beispielsweise in Autos, Smartspeakern und Mikrowellen-Geräten verfügbar.

Ein Algorithmus bezeichnet in der Informatik eine eindeutige Spezifikation, wie eine bestimmte Klasse von Problemen zu lösen ist. Algorithmen können beispielsweise Rechnungen ausführen, Daten verarbeiten oder automatisiert logische Argumente formulieren und logische Probleme lösen.

Angular.js ist ein clientseitiges JavaScript-Web-Framework zur Erstellung von Single-Page-Webanwendungen nach einem Model View ViewModel-Muster. Es wird als OpenSource-Framework von Google bereitgestellt.

Application Programming Interfaces, kurz: APIs, werden auf Deutsch oft als Programmierschnittstellen, gelegentlich auch als Anwendungsschnittstellen bezeichnet. Korrekter wäre die Bezeichnung „Schnittstelle zur Programmierung von Anwendungen“. Diese Schnittstellen sind ein Programmteil, der es anderen Programmen ermöglicht, eine Anbindung an das Softwaresystem herzustellen. Im Bereich von Onlinediensten ermöglicht die API, Webdienste zu nutzen und so Daten bzw. Content Dritter dynamisch für das eigene Programm zu verwenden.

Artificial Intelligence (AI), zu Deutsch: Künstliche Intelligenz, wird als Begriffskonstrukt verwendet, um die natürliche Intelligenz des Menschen von Lernprozessen einer Maschine zu unterscheiden. Der Begriff ist jedoch umstritten. Zum einen wird in Frage gestellt, inwieweit man die „Intelligenz“ der Maschine überhaupt mit der menschlichen Intelligenz, die ein Bewusstsein voraussetzt, vergleichen kann. Zum anderen gibt es die Überlegung, dass der Verweis auf „Künstliche Intelligenz“ lediglich ein kulturelles Konstrukt ist, das Dinge bezeichnet, die neu und wundersam erscheinen; die Zuschreibung würde fallengelassen, sobald sich die Technologie im kulturellen Mainstream etabliert habe (Tesler’s Theorem: „AI is whatever hasn’t been done yet.“). Derzeit werden als AI u.a. folgende Technologien bzw. technologische Forschungszweige klassifiziert: Spracherkennung und -verarbeitung, autonomes Fahren und so genannte „intelligente Agenten”, Geräte, die ihre Umwelt erfassen können und in (Re-)Aktionen zu den Ereignissen in ihrer Umwelt treten können, die dem Ziel bzw. der Erfüllung des Zwecks des Gerätes dienen.

Spracherkennung ist eine Teildisziplin der Computerlinguistik, die sich mit der Entwicklung von Methoden und Technologien befasst, die die Erkennung und Übersetzung gesprochener Sprache in Text durch Computer ermöglichen. Synonyme sind Automatic Speech Recognition (ASR) und Speech to Text (STT). Manche dieser Methoden und Technologien erfordern ein Training des Programms. Dabei analysiert das Programm die Stimme individueller Testpersonen und nutzt sie zur Optimierung der Spracherkennung. Big Data und Deep Learning haben zu einer erheblichen Beschleunigung der Entwicklung der Spracherkennung geführt, da nun extrem große Datenmengen zum Training und zur Auswertung von natürlicher Sprache herangezogen werden können.

Ein Autoresponder ist ein Programm, das vorgefertigte Antworten auf Anfragen automatisiert verschickt. Die ersten Chatbots waren Autoresponder, die eine Anfrage auf ein spezifisches Keyword untersuchte und ggf. eine spezifische vorgefertigte Antwort zurück gab.

B

Bixby ist ein Virtueller Assistent, der von Samsung Electronics aus Südkorea entwickelt wurde. Bixby ist auf den Samsung-eigenen Smartphones, TV-Geräten und dem Smartspeaker ("Bixby Home") verfügbar.

BotSociety ist ein Tool für die Konzeption von Chatbot-Mockups und Flussdiagrammen.

Brand Experience bezeichnet die Art und Weise, wie Nutzer eine Marke wahrnehmen und erleben. In Bezug auf Conversational User Interfaces stellt sich vor allem die Frage, wie diese klingen und sich ausdrücken müssen, um einer Markenerfahrung zu entsprechen. Auch die Inhalte und Funktionalität von Bots muss die Werte einer Marke widerspiegeln.

Buzzword ist der englische Ausdruck für ein Modewort, ein Begriff, der in aller Munde ist. Impliziert wird mit der Verwendung Buzzword auch, dass der Begriff bereits über Gebühr strapaziert wird.

C

Chatbots sind eine Software, die in einem Conversational User Interface (beispielsweise einem Messenger-System wie Facebook Messenger oder dem Chinesischen WeChat) programmierte Nachrichten an User versenden.

Chatfuel ist ein Tool zur Erstellung von Chatbots.

Cognitive Services sind technologische Plattformen, die eine natürliche Kommunikation mit Computern ermöglichen. Bestandteile dieser Plattformen sind unter anderem Machine Learning, NLP, Spracherkennung, Objekterkennung, Erkennung von Stimmungslagen von Menschen und Mensch-Maschine-Interaktion.

Der Cognitive Walkthrough ist eine Methode aus der Usability-Evaluation. Sie basiert, wie der Name schon nahelegt, darauf, dass sich ein Usability-Experte in einen Nutzer hineinversetzt und das Interface aus dessen Sicht zu sehen versucht. Es wird hier auf ein empirisches Testing verzichtet. Der Cognitive Walkthrough besteht aus vier Schritten: 1. Definition des Inputs, 2. Untersuchung der Handlungssequenz, 3. Protokollieren kritischer Information, 4. Überarbeitung des Interfaces.

Der Confidence Level gibt die prozentuale Wahrscheinlichkeit an, mit der eine Maschine bzw. ein Algorithmus ein Objekt "erkennt". Dieses Erkennen funktioniert so, dass im Zuge von Machine Learning der Maschine Trainingsdaten zur Verfügung gestellt werden, in denen jeweilige Ziele markiert sind (Tagging). Die Maschine vergleicht diese Trainingsdaten mit aktuellen Daten, die ihr vorliegen und kommt zu einer Wahrscheinlichkeit, mit der sie beispielsweise ein Objekt auf einem Bild wiedererkennen. Dasselbe gilt auch für die Semantik eines Wortes oder der Bestimmung eines Intents. Diese Wahrscheinlichkeit beschreibt also die relative Gewissheit der Maschine.

Conversational Commerce ist ein Dialog zwischen einem Unternehmen und einem User mit Bezug auf Produkte oder Services und dem direkten oder indirekten Ziel, den User zum Kauf zu motivieren. In der Regel bezieht es sich auf die Konversation via digitalem Assistenten oder schriftbasiertem Chatbot.

Anders als bei dem aktuell gängigen E-Commerce über Webshops auf dem Desktop oder dem mobilen Endgerät gibt es hier keine Ergebnislisten und auch keine umfangreichen Produktbeschreibungen. Dies schränkt die bereitgestellten Auswahlmöglichkeiten ein. Für den Nutzer kann dies entlastend wirken, als ein Zuviel an Auswahl Nutzer eher überfordert (Paradox of Choice). Für Unternehmen bedeutet dies aber beispielsweise einen noch intensiveres Bemühen um Sichtbarkeit.

Conversational User Interfaces (CUI) sind Interfaces, die Gespräche mit realen Menschen imitieren. CUI sind nach den Graphic User Interfaces (GUI) die nächste große Disruption im Bereich der Interfaces. An die Stelle graphischer Interfaces, auf denen die User Eingaben vornehmen, tritt ein dialogischer, natürlich-sprachiger Austausch mit dem User, der u.a. langwieriges Suchen in hierarchisch strukturierten Websites obsolet macht. Für funktionierende CUI sind Technologien wie Natural Language Processing und Natural Language Unterstanding entscheidend. Auch die Anbindung über APIs an Systeme Dritter ist ein wesentliches Erfolgskriterium.

Die Conversion Rate ist eine KPI im Online-Marketing, die das Verhältnis der Anzahl der Besucher zur Anzahl der Conversions bezeichnet. Im E-Commerce ist eine Conversion in der Regel eine Kaufhandlung; was eine Conversion ist, kann aber für den jeweiligen Use Case definiert werden.

Cortana ist ein Virtueller Assistent, der von Microsoft entwickelt wurde. Cortana ist integraler Bestandteil der aktuellen Windows-Versionen und dadurch auf einer großen Zahl von Laptops verfügbar. Cortana ist ebenfalls Bestandteil der neueren XBox-Geräte. Microsoft lizenziert Cortana auch an unabhängige Smartspeaker-Hersteller wie beispielsweise Harman Kardon.

D

Deep Learning ist eine Form der Machine Learning Algorithmen. Sie nutzen neuronale Netze mit einer Vielzahl an Ebenen zwischen Input und Output, in denen die empfangenen Daten weiterverarbeitet und zunehmend abstrakt werden. In diesen Ebenen laufen Prozesse des unbeaufsichtigten Lernens ab, etwa das Erkennen von Mustern in Eingabedaten, ohne dass ein Abgleich mit im Voraus bekannten Zieldaten stattfindet und ohne dass solche Daten bekannt sind.

Eine Development-Plattform ist eine Entwicklungsumgebung, die von einem kommerziellen Anbieter zur Entwicklung von Virtuellen Asistenten, Chatbots, Skills und Action zur Verfügung gestellt wird.

Dialogflow ist eine Plattform für die dialogorientierte Kommunikation und Natural Language Processing. Mit ihr lassen sich Chatbots realisieren und Anwendungen für den Google Assistant erstellen, die auch als Voice-Anwendungen funktionieren. Dialogflow ist in verschiedenen Editionen verfügbar und beherrscht zahlreiche Sprachen.

Duer ist ein von der chinesischen Firma Baidu entwickelter virtueller Assistent, der Bestandteil der Firmeneigenen Duer OS Betriebssystemumgebung ist. Baidu baut ein vollständiges Ökosystem mit Smartspeakern, Smart Home-Komponenten und integriert dies über das Betriebssystem Duer, das über Voice gesteuert wird.

E

Engagement bezeichnet den Interaktionsgrad, der mit einem digitalen Inhalt erreicht wird. Engagement kann generell vieles sein - beispielsweise Klicks, Likes, Kommentare bzw. Interaktionen in einem Chatverlauf oder eine voice-basierten Konversation.

Entities (Entitäten) sind Elemente des Natural Language Processing. Entitäten sind beispielsweise Personen, Organisationen, Orte und dergleichen.

Explicit Invocations (dt. explizite Invokationen) sind Invokationen (Aufrufe), bei denen der Nutzer einen Skill oder eine Action öffnet und eine konkrete Anwendung benennt, also z.B. "Alexa, öffne OTTO Unbox!". Auch das Nutzen von Phrasen wie "Alexa,..." oder "OK Google" kann als explizite Invokation begriffen werden. (Verwandt: implizite Invokation)

F

Findability, zu Deutsch: Auffindbarkeit, bezeichnet den Grad an Einfachheit, mit der Inhalte durch User gefunden werden können. Für Sprachinterfaces ist Findability eine besondere Herausforderung, da Vorschläge relevanter Inhalte, die bei GUIs möglich und üblich sind, nicht in gleichem Maße funktionieren. Da Menschen nur DInge fragen oder suchen können, von deren Existenz sie wissen, ergeben sich für Unternehmen u.a. neue Herausforderungen im Bereich SEO für Sprachinterfaces.

Ein Flowchart ist ein Flussdiagramm. Flussdiagramme kommen beispielsweise bei der Gestaltung von Konversationen für Chatbots zum Einsatz.

G

Der Hype-Cycle bildet die Phasen der Aufmerksamkeit und Akzeptanz der Öffentlichkeit gegenüber einer neuen Technologie ab. Der Begriff wurde von der Gartner-Analystin Jackie Fenn geprägt. Auf der x-Achse wird die Zeit, auf der y-Achse der Grad an Aufmerksamkeit abgetragen. Der Beginn des Zyklus liegt im Nullpunkt (technischer Auslöser). Es folgt ein steiles Wachstum bis zum Maximum (Gipfel der überzogenen Erwartungen), anschließend ein ebenso steiler Abfall, allerdings nicht auf Null (Tal der Enttäuschungen). Anschließend steigt der Kurvenverlauf erneut (Pfad der Erleuchtung – realistischere Erwartungen an die technische Neuerung) und mündet schließlich ins Plateau der Produktivität, auf dem die Technologie solider wird und immer mehr allgemeine Akzeptanz erfährt.

Google Assistant ist ein von der Firma Google entwickelter virtueller Assistent, der eine Vielzahl der Google-Services (Karten, Suche, Kalender) integriert und sowohl auf den Google Android Phones, aber auch in Google Smartspeakern integriert ist. Google lizensiert den Assistent auch an Drittanbieter. Google Assistant lässt sich per Text oder Stimme steuern und zählt zu den leistungsfähigsten dieser Plattformen.

H

"Hands-free" ist ein Schlagwort, dass sich auf Situationen bezieht, in denen man die Hände für andere Dinge als zum Bedienen eines Graphic User Interfaces benötigt - beispielsweise beim Autofahren oder beim Kochen. Solche Hands-free Use Cases sind typisch für Voice User Interfaces.

HiAssistant ist ein von der chinesischen Firma Huawei entwickelter Virtueller Assistent.

Household Penetration ist der Anteil aller Haushalte, die in einer zu definierenden geographischen Region von einem Service oder Produkt erreicht werden. "Erreicht" bedeutet, der Dienst wird genutzt oder ein Gerät besessen.

Human–Computer Interaction (HCI) oder auch Human-Machine-Interaction (HMI), auf Deutsch: Mensch-Maschine-Interaktion, befasst sich mit dem Design und der Nutzung von Interfaces, die die Schnittstelle zwischen Nutzern und Computern bilden. HCI ist als Disziplin an der Schnittstelle zwischen Informatik, Verhaltenswissenschaften, Design, Medienwissenschaften und diversen anderen Disziplinen angesiedelt.

Im Human-Centered Design geht es, wie der Name schon sagt, darum, die menschliche Perspektive in allen Schritten des Problemlösungsprozesses mitzudenken. Human-Centered Design ist der Ausgangspunkt vieler Spielarten und Anwendungsfelder von Design. Im User Interface- und User Experience-Design ist ein Human-Centered-Ansatz besonders wichtig, weil Nutzer das Designprodukt ja nur erfahren können, wenn sie es auch nutzen können. Im Bereich von Conversational User Interfaces und vor allem Voice ist ein Human-Centered-Design-Ansatz besonders wichtig, weil das Interface minimalisitisch bzw. "unsichtbar" ist und der Nutzer daher wenig Möglichkeiten zur Orientierung und erklärenden Nutzung hat.

I

Eine implizite Invokation ist ein User Request, der nicht direkt eine Google Action mit dem Namen aufruft, sondern die einen Intent (eine Absicht) hat, die im Google Assistant auslöst, das eine passende Action geöffnet oder passende Inhalte ausgespielt werden. Beispiel: Was läuft im Fernsehen? Die Frage zielt auf keine konkrete Aktion. Der Assistent weiß jedoch, wo er die Informationeen findet. In anderen virtuellen Assistenten gibt es ebenfalls implizite Invokationen.

Ein intelligent Assistant (intelligenter Assistent) ist ein Software-Agent, der in der Lage ist, Aufgaben für einen Menschen zu erledigen (z.B. Bestellungen ausführen, Informationen beschaffen, Termine buchen).

Ein Intent ist ein Element im Natural Language Processing. Es beschreibt die Absicht (Intention) die einer Nutzeräußerung zugrunde liegt.

Ein Interactive Voice Response-System (IVR) ermöglicht es den Usern, über akustische Medien natürlich-sprachige Dialoge mit einer Maschine zu führen. Typische IVRs sind automatisierte Telefonhotlines, die Auswahlmöglichkeiten ansagen (z.B. "Sagen Sie: Rechnung, oder Buchung, oder legen Sie einfach auf") und auf einfache Sprachbefehle reagieren. IVR-Systeme sind gewissermaßen rudimentäre Conversational User Interfaces, die bereits seit Ende der 80er Jahre zunächst vor allem in USA im Einsatz waren.

Das Internet of Things (Deutsch: Internet der Dinge) bezeichnet eine Informationsinfrastruktur, die Gegenstände physischer oder virtueller Art über Sensoren miteinander vernetzt. Die Voice-Technologie spielt dabei eine zentrale Rolle, insofern die Schnittstelle zwischen Mensch und Informationsnetzwerk nicht selten über Sprache gelöst wird, beispielsweise bei Smart Home-Anwendungen, wie der Licht, Klima und Musik-Steuerung.

Eine Invocation (dt. Invokation) ist ein Wort oder eine Phrase mit der eine Google Action, ein Alexa Skill o.ä. geöffnet wird. Wird die Action oder der Skill direkt benannt und zur Öffnung aufgefordert, z.B"Alexa, öffne OTTO Unbox!"), nennt man die Invokation direkt (explizit). Wird der Intent vom Assistenten auf eine Weise interpretiert, die ein Öffnen eines Skills oder einer Action zur Folge hat, nennt man die Invokation indirekt (implizit), z.B. "Alexa, ich möchte Kleider in meiner Nähe entdecken!" - Alexa öffnet OTTO Unbox. Auf einer vorgeschalteten Ebene ist aber auch das Aktivieren eines digitalen Assistenten über einen Sprachbefehl wie "Alexa,...!" oder "OK Google" eine Invokation.

K

Ein Key Performance Indicator (KPI) ist eine qualifizierbare Größe, um den Erfolg einer Maßnahme, einer Dienstleistung, eines Produkts oder einer Person zu messen. Ein KPI wird ja nach messbaren Objekt individuell zusammengestellt und berechnet.

Der Begriff Kontext gehört ins Feld der Semantik. Je mehr Kontext Maschinen zur Verfügung haben, desto besser können diese beispielsweise User Intents interpretieren. Kontext macht Maschinen funktionaler. Beispiel: Wenn das Smartphone weiß, wo sich das Smartphone bzw. der Nutzer befindet, kann es relevantere Suchergebnisse, die im Umkreis sind, finden, als wenn es das nicht weiß. Dasselbe gilt für die Analyse von Utterances bei Natural Language Understanding und natürlich auch bei den Aktionen, die virtuelle Assistenten auslösen.

L

Labeling ist ein Grundinstrument maschinellen Lernens. Maschinen lernen durch das Markieren (Labeling) gewünschter Zieldaten, etwa das Markieren eines bestimmten Gegenstands in einem Bild. Die Maschine analysiert die Eigenarten des Bildes und vergleicht diese mit den Eigenarten eines anderen, möglicherweise ähnlichen Bildes. Dadurch lernt die Maschine durch jeden neuen Vergleich und kommt zu einem bestimmten Confidence Level, etwas erkannt zu haben. Beim Trainieren von Sprachdaten werden große Textmengen der Maschine als Trainingsdaten zur Verfügung gestellt, die diese mit der Sprache beispielsweise eines Spracheingabesystems vergleicht.

LUIS ist die Microsoft API für Natural Language Processing.

M

Machine Learning (ML) ist ein Teilfeld der Künstlichen Intelligenz, das statistische Methoden nutzt, um Computersystemen die Möglichkeit zu geben, etwas zu lernen. Lernen bezeichnet dabei die Fähigkeit, die Bewältigung einer gegebenen Aufgabe durch Verarbeitung neuer Daten zu verbessern, ohne explizit entsprechend programmiert worden zu sein.

App (Applikation), die nur eine einzige Aufgabe / Zweck erfüllt. Kann direkt auf dem Gerät ohne Installation aus einem App-Store gestartet werden.

Multimodal bedeutet wörtlich "auf viele Weisen". Im Kontext von CUI ist damit gemeint, dass Input und Output auf verschiedene Weisen, d.h. in verschiedenen Modi, gestaltet sein können, je nach Anwendungskontext. Zum Einsatz können dabei Voice-Elemente kommen, aber natürlich auch graphische Interfaces (Bildschirme) oder Sensoren, wenn man an den Bereich IoT denkt.

N

Natural Language Generation (dt. Textgenerierung, auch: natürlich-sprachliche Generierung) meint die automatische Generierung natürlicher Sprache durch eine Maschine. NLG ist Teil der Computerlinguistik und wird häufig unter den Oberbegriff "künstliche Intelligenz" subsumiert.

Natural Language Processing (NLP) befasst sich mit der Verarbeitung von natürlicher Sprache in der Mensch-Maschine-Interaktion. Schwerpunkt der Forschung ist die Frage, wie Computer so programmiert werden können, dass sie in der Lage sind, natürlich-sprachige Daten in großen Mengen zu verarbeiten und zu analysieren. NLP beinhaltet Problemfelder wie Spracherkennung, Natural Language Understanding und Natural Language Generation.

Natural Language Understanding ist ein Unterthema vom Natural Language Processing (NLU). Im NLU geht es um die Verarbeitung und Interpretation natürlicher Sprache durch Maschinen. Dabei kann die Eingabe als schriftsprachliche oder natürlich-sprachliche Äußerung erfolgen.

Natural User Interfaces (NUI) ermöglichen dem Nutzer eine Befehlseingabe ohne Hilfsmittel. Die Befehle werden haptisch (Wischen mit dem Finger / Tippen), akustisch (Spracherkennung) oder optisch (Gesichtserkennung) von der Maschine aufgenommen bzw. erkannt.

NN, artificial neural network (ANN) or simulated neural network (SNN)

Neural Networks (dt. Neuronale Netzwerke) sind nicht lineare, statistische Datenmodellierungs- oder Entscheidungsfindungsinstrumente. Sie werden genutzt, um komplexe Beziehungen zwischen Inputs und Outputs zu modellieren oder Muster in Daten zu erkennen. Neuronale Netze bestehen aus einer Vielzahl an Ebenen zwischen Input und Output, in denen die empfangenen Daten weiterverarbeitet werden. In diesen Ebenen laufen Prozesse des unbeaufsichtigten Lernens ab, etwa das Erkennen von Mustern in Eingabedaten, ohne das ein Abgleich mit im Voraus bekannten Zieldaten stattfindet und ohne dass solche Daten bekannt sind.

Node.js ist eine Plattform in der Softwareentwicklung zum Betrieb von Netzwerkanwendungen, mit der v.a. Webserver realisiert werden können. Node.js kommt häufig zum Einsatz, wenn man komplexe Chatbots entwickelt und dabei beispielsweise die NLP-Engine eines Anbieters mit den eigenen Daten und der Schnittstelle einer Distributionsplattform verbindet. Mit Node.js kann man beispielsweise einen Facebook Chatbot mit dem Google Dialog Flow-NLP betreiben.

O

„On Device“ vs. „on the cloud“ bezieht sich auf den Ort der Datenverarbeitung, wo also die Sprach- oder Bilderkennung stattfindet. Auf dem Gerät („on device“) können diese Prozesse bis zu zehn Mal schneller erfolgen als „on the cloud“, was die Dialoge zwischen Mensch und Maschine dramatisch beschleunigt und damit verbessert. So wie die Google Suche nicht zuletzt durch ihre Performance überzeugt und zum Suchen anregt, ist auch die Reaktionsgeschwindigkeit („Latency“) bei der Spracherkennung ein entscheidender Faktor. Der Google Assistant kann Automatic Speech Recognition auf modernen Android-Phones realisieren und lässt den Nutzer damit das gesamte Telefon durch Sprache steuern, was die Steuerung durch Touch bzw. Click veraltet und langsam erscheinen lässt. On Device-Verarbeitung kann auch in verschiedenen Smart Home-Geräten und letztlich auch im Smartspeaker erfolgen, immer mit dem Vorteil der Beschleunigung der Interaktion.

P

Ein Personal Digital Assistant (Persönlicher Digitaler Assistent) ist ein Software-Agent, der in der Lage ist, Aufgaben für einen Menschen zu erledigen (z.B. Bestellungen ausführen, Informationen beschaffen, Termine buchen).

Ein Personal Navigational Device ist ein elektronisches Gerät, das eine Erfassung von Positionsdaten, z.B. via GPS, mit einer Navigationsoption verbindet. Er kann als reduzierte Form des Personal Digital Assistants begriffen werden.

Ein Prototype (dt. Prototyp) ist ein funktionsfähiges Versuchsmodell eines geplanten Produktes. Prototypen für Voice- bzw. Conversational-Anwendungen unterscheiden sich von anderen Prototypen - beispielsweise für Smartphone Apps - stark, da die Pfade nicht immer gleich sind. Hier kommen verschiedene Prototyping-Tools wie Botsociety, Adobe XD, oder auch BotMock zum Einsatz. In frühen Entwicklungsstadien von Prototypes eignen sich auch Verfahrensweisen wie Wizard of Oz um für Entwickler und anderer Stakeholder einer Conversational Application einen ersten Eindruck über die Funktionsweise zu erhalten.

Prototyping ist der Prozess der Entwicklung ein funktionsfähiges Versuchsmodell eines geplanten Produktes. Eine erste Version wird auch MVP (Minimal Viable Product / minimal überlebensfähiges Produkt) genannt. Es ist die erste funktionsfähige Version des Produkts oder Services.

R

Rasa ist eine Deutsche Open Source Entwicklungsumgebung für Chatbots und virtuelle Assistenten, die international eingesetzt wird. Mit Rasa können Entwickler eigene NLP-Engines aufbauen, trainieren und betreiben und damit den Einsatz von Anwendungen der großen Unternehmen (Facebook, Google, Amazon etc.) vermeiden.

React ist ist eine von Facebook entwickelte Softwarebibliothek in JavaScript. Sie bietet eine Basis für die Ausgabe von User-Interface-Komponenten von Websites.

S

Semantisch ist ein linguistischer Begriff und heißt "die Bedeutung der Zeichen (Worte) betreffend". Das dazugehörige Nomen ist Semantik (Bedeutungslehre). In unserem Kontext bezieht sich "semantisch" meist auf das "Semantic Web", bei dem es in Wesentlichen um die Ergänzung von vorhandenen Inhalten um strukturierte Daten geht. Strukturierte Daten spezifizieren im Code die Bedeutung eines Begriffs und tragen so dazu bei, dass Maschinen den Kontext von Begriffen besser verstehen können. Semantik im informatischen Sinne ist also grundlegend für die Weiterentwicklung von NLU, NLP und NLG. Für Conversational User Interfaces ist dies ein besonders relevanter Aspekt, da Menschen bei der Form der Mensch-Maschine-Interaktion mit Maschinen annähernd so agieren wie mit realen Menschen. Entsprechend verwenden sie eher eine natürliche Sprache, die von Maschinen verstanden werden muss. Auch die Reaktion muss entsprechend natürlich-sprachig wirken, um die User-Erwartungen nicht zu enttäuschen.

Man könnte den Begriff mit Stimmungs- oder Gefühls-Analyse übersetzen. Es geht um die Deutung einer Aussage in Hinsicht auf ihre Polarität. Beschreibt ein Text das Objekt positiv, negativ oder neutral? Zur Einordnung werden Begriffe herangezogen wie "super", "genial", "ganz mies" oder "totaler Schrott". Eine zu ermittelnde Abstufung ist nicht immer eindeutig, so wird beispielsweise wird das Wort “perfekt” von Menschen im Schnitt positiver wahrgenommen als das Wort “zufrieden”, obwohl beide im positiven Bereich liegen. Für die maschinelle Analyse einer Aussage sind Ironie und Zynismus noch eine Hürde.

Siri ist ein von der Firma Apple entwickelter Virtueller Assistent, der durch IOS allen modernen Apple-Geräten zur Verfügung steht.

Eine Alexa Skill ist eine Softwareapplikation für Amazons intelligenten Assistenten Alexa. Ein strukturelles Analogon des Alexa Skills ist die Google Action. Skills und Actions funktionieren ähnlich wie Apps für Mobile Devices. Die Auffindbarkeit ist allerdings derzeit in den Skill-Stores noch unterentwickelt. Skills sind aktuell noch schwerer auffindbar als Apps im Appstore.

Ein Smart Display ist ein Smartspeaker mit einem kleinen Bildschirm. Ein Beispiel für ein Smart Display ist der Amazon Echo Show. Die Mitbewerber von Amazon haben analoge Produkte auf dem Markt oder in Planung.

Ein Smartspeaker ist ein kleiner Tischlautsprecher und ein Voice Command-Gerät mit integriertem intelligenten Assistenten. Dies ermöglich eine Aktivierung des Assistenten und zugehöriger Anwendungen mit Hilfe von Invocations. Die Ausstattung und der Funktionsumfang variiert von Hersteller zu Hersteller.

Die Spracherkennung ist ein Teilgebiet der angewandten Informatik, der Ingenieurwissenschaften und der Computerlinguistik. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die Automaten, insbesondere Computern, die gesprochene Sprache der automatischen Datenerfassung zugänglich macht. Die Spracherkennung ist zu unterscheiden von der Stimm- bzw. Sprechererkennung, einem biometrischen Verfahren zur Personenidentifikation. Allerdings ähneln sich die Realisierungen dieser Verfahren.

Speech to Text, auch: Voice to Text, beschreibt den Prozess der Konvertierung von natürlichsprachigem Input in digitalen Text mittels Spracherkennung.

Überwachtes Lernen gehört zum Bereich „maschinelles Lernen“ und ist der Komplementärbegriff zu unüberwachtem Lernen (engl. „unsupervised learning“). Zum überwachten Lernen gehört die Fähigkeit einer KI, Hypothesen über Gesetzmäßigkeiten zu bilden. Überwacht ist dieses Lernen, weil die Maschine anhand von Naturgesetzen oder Expertenwissen trainiert wird. Dabei sind die korrekten Ergebnisse also bekannt und der Lernprozess der Maschine kann anhand der bekannten Ergebnisse überwacht werden.

T

Text To Speech ist eine Form der Sprachsynthese, bei der schriftlicher Text in gesprochenen Voice-Output konvertiert wird.

TingTing ist ein Smartspeaker des chinesischen Herstellers Tencent mit Integration von WeChat, das ebenfalls Tencent gehört.

TMall Genie ist ein virtueller Assistent, der von dem chinesischen Hersteller Alibaba entwickelt wurde.

Tonalität bezeichnet die Art und Weise des sprachlichen Ausdrucks, der Darstellung, die beeinflusst, wie ein Sachinhalt wahrgenommen wird. Im Bereich Conversational User Interfaces ist die Tonalität ein wichtiger Faktor, da visuelle Elemente zugunsten des natürlich-sprachigen Ausdrucks in den Hintergrund treten. Gerade für das Branding von Unternehmen ist die Frage der Tonalität bei digitalen Assistenten essentiell.

Trainingsdaten sind in unserem Fall Daten, die einer KI vorlegt werden, um schrittweise das Confidence Level der KI zu erhöhen. Je mehr gelabelte Daten die KI zum Abgleich zur Verfügung hat, desto sicherer wird sie in der Identifikation.

Der Turing-Test ist nach Alan Turing benannt, der mit diesem Test 1950 ermitteln wollte, ob Computer ein dem menschlichen Denken gleichwertiges Denkvermögen haben. Für den Test muss ein menschlicher Fragesteller über eine Tastatur eine Unterhaltung mit zwei Unbekannten führen. Er hat dabei kein Sicht- und kein Hörkontakt. Was der Proband während des Gesprächs nicht weiß, ist das einer der beiden Gesprächspartner ein Computer ist. Kann der Proband am Ende nicht eindeutig benennen, welche der beiden Gesprächspartner der Computer, welcher der Mensch war, hat der Computer den Turing-Test bestanden und es wird ihm ein dem Menschen analoges Denkvermögen attribuiert.

U

In der Ästhetik bezeichnet das "Uncanny Valley" eine Hypothese über das Verhältnis zwischen dem Grad an Ähnlichkeit eines Objekts mit einem Menschen und der emotionalen Reaktion auf dieses Objekt. Während normalerweise die Affinität mit steigender Ähnlichkeit zunimmt, lösen Objekte, die fast täuschend menschliche Züge haben, eher Ablehnung und ein Gefühl des Unheimlichen aus.

Unüberwachtes Lernen gehört zum Bereich maschinelles Lernen und ist der Komplementärbegriff zu überwachtem Lernen (engl. „supervised learning“). Zum unüberwachten Lernen gehört Erkennen von Mustern in Eingabedaten, ohne das ein Abgleich mit im Voraus bekannten Zieldaten stattfindet und ohne dass solche Daten bekannt sind.

Usability bedeutet auf Deutsch "Gebrauchstauglichkeit". Damit wird das Ausmaß bezeichnet, in dem ein Produkt, Dienst oder System in einem klar definierten Anwendungskontext effektiv zur Erreichung seiner Ziele eingesetzt werden kann. Usability ist eng verwandt mit UX.

Usability Tests sind empirische Verfahren, um die Gebrauchsfertigkeit von Soft- oder Hardware zu überprüfen. Ihr Gegenpart ist der Cognitive Walkthrough, der ohne empirische Tests mit echten Usern auskommt.

User Experience (UX) wird im Deutschen als Nutzererlebnis, Nutzungserlebnis oder Anwendererlebnis bezeichnet. UX umfasst alle Aspekte der Erfahrung, die ein User in der Interaktion mit einem Produkt, einem Dienst, einer Umgebung oder einer Einrichtung macht. Software und IT-Systeme zählen ebenfalls zu diesen Interaktionspunkten und bezieht sich oft auf die Gestaltung von Websites oder Apps, kann aber auch die nicht-digitale, physische Nutzung mit einschließen.

Das User Interface (dt. "Benutzerschnittstelle", "Nutzerschittstelle" oder auch "Benutzungsschnittstelle") ist jeder Ort oder jede Handlung, an dem oder mit der ein User mit einer Maschine in Interaktion tritt.

Die User Journey ist ein Begriff aus dem Feld der User Experience. Er beschreibt die Phasen und Schritte, die der Nutzer einer interaktiven Anwendung durchläuft, bis er am Ziel seines Nutzungsvorgangs angekommen ist, oder die Anwendung aus anderen Gründen verlässt. Häufig werden in der User Journey auch Schritte vor der Nutzung der Anwendung und Schritte danach erfasst und beschrieben. Die Untersuchung und Optimierung der User Journey gehört zu den wichtigen Aufgaben bei Planung, Umsetzung und Monitoring von Anwendungen. Bei Conversational User Interfaces sind die User Journeys häufig schwerer zu beobachten, als bei Apps und Websites, da Conversational User Interfaces im besten Fall 100 Prozent personalisierte Dialoge mit dem Nutzer führt.

Utterance bedeutet auf Deutsch "Äußerung". In unserem Fall geht es um die Äußerung eines Nutzers. Diese kann ein Wunsch, ein Befehl, eine Frage und vieles mehr sein. Eine Utterance kann isoliert stehen oder im Kontext eines vorangegangenen Wunsches, Frage, Befehl etc. Es ist für Maschinen schwer, Utterances einzuordnen. Schon allein die Entscheidung, wann eine Utterance beginnt und wann diese endet, ist komplex. Redepausen oder Unterbrechungen können den Eindruck erwecken, eine Utterance sei beendet. Andererseits wäre es wünschenswert, wenn Maschinen mit der Reaktion auf eine Utterance schon beginnen, ehe diese ganz zu Ende ist. Menschen tun dies ganz selbstverständlich, da bereits während das Gegenüber einen Satz spricht mit der Interpretation und dem Verständnis seiner Aussage begonnen wird. Unter Umständen wird diese Äußerung unseres Gegenüber sogar durch bestätigendes "Ja!", "Hm-mm..." oder "Genau!" unterstützt bzw. unterbrochen. Solche Ansätze gibt es auch bereits im NLP.

V

Ein Virtual Assistant (Virtueller Assistent) ist ein Software-Agent, der in der Lage ist, Aufgaben für einen Menschen zu erledigen (z.B. Bestellungen ausführen, Informationen beschaffen, Termine buchen). Manchmal wird das Wort “Chatbot” als Synonym für „Virtual Assistant“ verwendet; häufiger meint „Chatbot“ jedoch solche virtuellen Assistenten, die über einen schriftsprachigen Online-Chat zugänglich sind.

Ein Voice Assistant ist ein Conversational User Interface, dem der Nutzer in natürlicher Sprache Anweisungen geben und Wünsche mitteilen kann, die der Assistent umsetzt. So kann ein Voice Assistant beispielsweise auf Sprachbefehl eine Zugverbindung heraussuchen und ein passendes Ticket kaufen.

Voice Commerce bezeichnet E-Commerce durch Sprachbefehle. Voice Commcerce unterscheidet sich von E-Commerce dadurch, dass bei Sprachbefehlen die Komplexität der Antwort des Voice Commerce-Systems naturgemäß reduziert sein muß, da kein Bildschirm zur Verfügung steht und damit Auswahlmöglichkeiten stark reduziert werden müssen. Fragen der Authentifizierung beim Kaufvorgang stellen gegenwärtig noch Herausforderungen für Voice Commerce dar.

Ein Voice Prototype ist ein funktionsfähiges Versuchsmodell eines geplanten Voice-Produktes. Prototypen für Voice-Anwendungen unterscheiden sich von anderen Prototypen - beispielsweise für Smartphone Apps - stark, da die Pfade nicht immer gleich sind. Hier kommen verschiedene Prototyping-Tools wie Botsociety, Adobe XD oder auch BotMock zum Einsatz. In frühen Entwicklungsstadien von Prototypes eignen sich auch Verfahrensweisen wie Wizard of Oz um für Entwickler und anderer Stakeholder einer Conversational Application einen ersten Eindruck über die Funktionsweise zu erhalten.

Voice Search bedeutet, dass der Nutzer seine Stimme (und natürliche Sprache) - anstelle von Touchscreen oder Tastatur - nutzt, um eine Suchanfrage im Internet, auf einer Website oder in einer App zu stellen. Die Recherche über intelligente Assistenten ist ein Anwendungsszenario für Voice Search. Voice Search ist oft interaktiv und umfasst mehrere Interaktionsrunden, ist also dialogisch.

Voice Search Optimization bezeichnet die Optimierung von Inhalten für die Sprachsuche. Voice SEO ist damit die konsequente Weiterführung von Suchmaschinenoptimierung in einer Zeit, in der die Sprachsuche an Bedeutung gewinnt. In der Vergangenheit wurden Suchanfragen üblicherweise auf der Tastatur oder dem Touchscreen eingegeben. Sie umfassen daher in der Regel nur wenige Schlüsselworte. Dies ändert sich bei der natürlich-sprachigen Spracheingabe. Voice SEO bedeutet darum insbesondere das Optimieren auf natürlich-sprachige Queries der User. Fragen und langen Phrasen kommt entsprechend eine größere Bedeutung zu.

Voice to Text, auch: Speech to Text, meint den Prozess der Konvertierung von natürlichsprachigem Input in digitalen Text mittels Spracherkennung.

Voice User Experience beinhaltet alle Aspekte der Erfahrungen, die ein Nutzer bei der Interaktion mit einem Produkt, Dienst, Umgebung oder Einrichtung macht, die Voice-Technologie nutzt.

Voice User Interfaces (VUI) ermöglichen die gesprochene Interaktion zwischen Mensch und Computer, indem Spracherkennung gesprochene Befehle erkennt und üblicherweise Text-to-Speech-Technologie nutzt, um die Antwort auszuspielen. Ein Gerät, das mit einem VUI betrieben wird, bezeichnet man auch als Voice Command Device (VCD). VUI findet derzeit bereits Anwendung in Fahrzeugen, Haushaltsgeräten und vielem anderem mehr.

W

Watson ist ein von IBM entwickeltes Computerprogramm, das unter anderem Antworten auf Fragen in natürlicher Sprache ausgeben kann. IBM Watson gewann 2011 eine Partie des Fernsehquizzes "Jeopardy!" gegen zwei menschliche Gegner und brachte das Thema Artificial Intelligence ins Bewusstsein einwe breiteren Öffentlichkeit. Unter der Marke Watson bündelt IBM eine ganze Reihe kognitiver Services und bietet Branchenlösungen – beispielsweise in der Medizintechnik – an.

Watson Assistant ist ein Tool, mit dem Conversational User Interfaces für jede Art von App, Gerät oder Kanal entwickelt werden können.

WeChat ist eine weit verbreitete chinesische Messenger Plattform, die weithin als Rollenmodel angesehen wird. Während die Grundfunktionen von WeChat vergleichbar mit dem in Europa verbreiteten WhatsApp, gehen die Funktionalitäten von WeChat weit über das Austauschen persönlicher Nachrichten hinaus. Auf WeChat kann man auch mit Firmen und Institutionen "chatten". Dabei bieten diese Kommunikationspartner Funktionen im Chatverlauf an, die stark an Funktionen aus Apps erinnern. Allerdings mit dem Unterschied, daß Nutzer den Messenger-Dienst nicht verlassen müssen und eine App downloaden, suchen usf., sondern die Funktionen direkt im Dialog mit dem Anbieter zur Verfügung gestellt bekommen. So kann man eine Institution im Messenger fragen, wo ihr Büro ist und die Antwort ist eine funktionale Karte im Chatverlauf, wie man es von Google Maps gewoht ist. Auf diese Weise entsteht ein Nutzerinterface für mobile Endgeräte, das sich stark von dem im gewöhnlichen App-Interface westlicher Prägung unterscheidet. Unterstützt werden diese Funktionen durch die Bezahlfunktion, die zu einem Kernfeature von WeChat gehört und mit der man in China praktisch überall, sogar beim Kauf einer Suppe am Straßenrand, bargeldlos bezahlen kann. WeChat war Vorreiter bei der Einführung von Chatbots und bietet heute umfangreiche Sprachsteuerungsfunktionen an.

Das Wizard-of-Oz-Experiment ist ein Instrument zum sehr frühen Prototyping von Sprachanwendungen. Dabei führt ein Proband vorgeblich ein Gespräch mit einer Maschine, während tatsächlich ein echter Interaktionspartner auf der anderen Seite sitzt, der das Verhalten des Probanden, seine Reaktionen auf die Sprachanwendung, analysiert und späterhin auswertet.

Wolfram Alpha ist ein Onlinedienst zum Auffinden und Verarbeiten von Informationen. Anders als bei normalen Suchmaschinen werden keine Ergebnislisten mit Inhalten im Web erstellt, sondern stattdessen Daten durch den Algorithmus verarbeitet und dem Nutzer aufbereitet präsentiert. Natural Language Processing sowie Semantik sind der Schlüssel zur Funktion dieses Onlinedienstes.

X

Xiao ist ein virtueller Assistent, der von dem chinesischen Hersteller Xiaomi entwickelt wurde und in dessen Smartphones installiert ist. Xiaomi bietet auch eine Reihe von Smartspeakern und Smart Home Geräte an, in denen Xiao verfügbar ist.

Xiaowei ist ein virtueller Assistent, der von der chinesischen Firma Tencent entwickelt wurde.