pio3 - Fotolia

Feature

NLU, NLG und NLP: Wie und wofür Sprache verarbeitet wird

Natural Language Processing (NLP) ist für KI-Applikationen von zentraler Bedeutung. Inzwischen wurde NLP in einer ganzen Reihe von Anwendungen realisiert.

von

Ronald Schmelzer, Cognilytica

Zuletzt aktualisiert:05 März 2020

Menschen haben einen präfrontalen Cortex, der unsere emotionalen Prozesse, Bewertungen sowie Problemlösungsfähigkeiten steuert, und uns bei der Fähigkeit Sprache zu sprechen und zu verstehen unterstützt. Für das Tippen und Wischen hat unser Gehirn keinen ähnlich großen Teil entwickelt. Wir haben deshalb eine größere Affinität zu Menschen und Dingen, mit denen wir in natürlicher Sprache kommunizieren können. Die binäre Sprache von Maschinen und Schnittstellen bleibt uns dagegen fremd.

Künstliche Intelligenz (KI) wird unter anderem eingesetzt, um Interaktionen zwischen Maschinen und Menschen in natürlicher Sprache zu ermöglichen. Sie kann sogar genutzt werden, um bessere Interaktionen zwischen Menschen selbst zu ermöglichen.

Das Muster von Konversationen konzentriert sich darauf, Maschinen und Menschen die Interaktion mit natürlicher Sprache in einer Vielzahl von Formen zu ermöglichen. Dazu gehören sprach-, text-, schrift- und bildbasierte Kommunikationsformen. Trends in der dialogbasierten KI (Conversational AI) wirken sich auf die Interaktion von Maschine zu Mensch, von Mensch zu Maschine und auf die wechselseitige Mensch-Maschinen-Kommunikation aus.

Wie natürliche Sprache verarbeitet wird

Der Begriff natürliche Sprache bezeichnet die Sprache, in der Menschen miteinander kommunizieren: Deutsch, Englisch, Französisch. Natürliche Sprachen werden geschrieben und gesprochen verwendet – hinzu kommen Kommunikationsformen wie Gesten, die ebenfalls einen Kommunikationswert haben. Im Kontext sprachbasierter KI sind drei Begriffe relevant: Natural Language Understanding (NLU), Natural Language Generation (NLG) und Natural Language Processing (NLP).

Wenn wir Computern die menschliche Sprache antrainieren, dann möchten wir, dass Maschinen zwei Ziele erreichen: Sie sollen erstens über ein natürliches Sprachverständnis verfügen (Natural Language Understanding, NLU). Das bedeutet, dass Maschinen sowohl die gesprochene als auch die geschriebene und gestische Kommunikation eines Menschen verstehen.

Sprachverstehende Maschinen sollen zweitens aber auch die natürliche Sprache generieren können (Natural Language Generation, NLG). Damit werden Maschinen in die Lage versetzt, mit Menschen in ihrer bevorzugten Sprache zu kommunizieren – von Maschine zu Mensch. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist die Kombination dieser beiden Aspekte in Systemen, die beide Kommunikationsrichtungen verarbeiten müssen.

NLP ist zentral für die Entwicklung von KI. Sie war seit den Anfängen der KI in den fünfziger Jahren ein bedeutendes Forschungsfeld und eine der ersten Aufgaben, die KI-Forscher mit intelligenten Systemen versuchten zu bewältigen. Und nach wie vor ist KI stark von NLP geprägt.

Chatbots und Konversationsagenten

Chatbots und Konversationsagenten (virtuelle Agenten) sind ein Ergebnis sprachbasierter KI-Forschung. Der bekannte MIT-Professor (und spätere KI-Kritiker) Joseph Weizenbaum schuf 1964 ELIZA, das mit einfachen Mitteln ein Gespräch zwischen einem Psychotherapeuten und einem Patienten simuliert. ELIZA kann als erster Chatbot aufgefasst werden. Seitdem haben sich Chatbots erheblich weiterentwickelt. Sie reagieren sprachlich auf Menschen, die sich auf den Dialog in natürlicher Sprache einlassen.

In den letzten zehn Jahren haben Unternehmen versucht, Chatbots und Dialogschnittstellen für eine Vielzahl von Anwendungen einzusetzen: vom Kunden-Support über assistentengestützten Handel bis hin zu Sprachschnittstellen in Automobilen und Geräten. Solche Dialogschnittstellen reduzieren die Komplexität der Schnittstelle, bieten ständigen Service und Support und fühlen sich für die menschliche Interaktion natürlicher an. Einfach ausgedrückt: die Leute sprechen lieber als nur zu klicken oder zu wischen – was sicher ein Erbe unserer Evolution ist.

In vielen Branchen nutzen Unternehmen und Organisationen Chatbots und Dialogschnittstellen. Man findet zum Beispiel Machine Learning und KI-fähige Dialogschnittstellen in Krankenhäusern als medizinische Assistenten. Sie bieten finanzielle Beratung an, leisten pädagogische Unterstützung, und schalten sich in einen Website-Besuch ein, um sicherzustellen, dass die Bedürfnisse des Besuchers befriedigt werden. Inzwischen werden sogar automatisierte Gespräche in Game Engines bereitgestellt, um die Umgebung realistischer erscheinen zu lassen.

Dialogschnittstellen finden auch Eingang in die Interaktionen im E-Commerce und Einzelhandel. Anstatt eine mobile App herunterladen oder durch Seiten mit Produktoptionen und -angeboten blättern zu müssen, bieten Gesprächsassistenten den Käufern die Möglichkeit, ihre Absichten sprachlich zu kommunizieren. Die Käufer können so die passenden Produkte, Dienstleistungen oder Konfigurationen finden, die ihren Anforderungen entsprechen. In Zukunft werden wir möglicherweise feststellen, dass wir den Dialoghandel den traditionellen Methoden vorziehen, die zu weniger optimalen Einkäufen führen können.

Anwendungen für Sprachassistenten

Sprachassistenten sind Hardwaregeräte, die Mikrofoneingänge mit Audioausgängen und KI koppeln. Sie stellen eine Reihe intelligenter Funktionen bereit. Zu diesen Voice-Assistant-Geräten gehören zum Beispiel Amazon Alexa, Microsoft Cortana, Apple Siri und Home Pod, Googles Home- und Assistant-Angebote, Samsung Bixby sowie weitere Angebote von Unternehmen wie Baidu.

Sprachassistenten sind mit einer Vielzahl von Anwendungen betraut. Diese reichen von einfachen Aktivitäten für Musik- und Heimautomatisierung bis hin zu komplizierteren mehrstufigen Gesprächen, bei denen mehrere Teile eines Dialogs im Auge behalten werden müssen. Unternehmen und Organisationen können diese Sprachassistenten zur Unterstützung von Aufgaben einsetzen: Von der Kundenunterstützung und -führung bis hin zur Verbesserung menschlicher Arbeitsprozesse.

In der häuslichen Umgebung werden Sprachassistenten eingesetzt, um Menschen mit körperlichen Beeinträchtigungen ein selbstständiges Leben zu ermöglichen. In Verbindung mit Smart-Home-Geräten können diese Sprachassistenten bei einer Vielzahl von Aufgaben helfen, wie zum Beispiel beim Ein- und Ausschalten von Licht oder dem Einstellen von Thermostaten.

Abbildung 1: Stufen von KI-Fähigkeiten in persönlichen Assistenzsystemen.

Große Marken entwickeln Apps und Fähigkeiten auf Voice-Assistant-Plattformen, um mit Benutzern und Kunden zu interagieren. Der Pizza-Skill von Domino ermöglicht es den Benutzern beispielsweise, mit Unterstützung des Sprachassistenten durch Sprachmenüs zu navigieren und Bestellungen aufzugeben. Virtuelle KI-Assistenten können Fitnessstudios bei der Beantwortung von Fragen unterstützen, ohne dass zusätzliches Personal benötigt wird.

Krankenhäuser experimentieren mit dem Einsatz von Sprachassistenten in Krankenzimmern, um ihren Patienten ein besseres Gesamterlebnis zu bieten. Da Patienten in Kliniken möglicherweise nur eingeschränkte Mobilität haben und ans Bett gebunden sind, helfen Voice-Assistant-Geräte, ihr Bett zu bewegen, das Licht ein- und auszuschalten und die Krankenschwester um zusätzliche Unterstützung zu bitten.

Analyse von Stimmung und Inhalt

Bei der Stimmungsanalyse (Sentiment Analysis) wird Text identifiziert und kategorisiert, um festzustellen, wie die Einstellung der Person zu etwas ist: positiv, negativ oder neutral. Die Analyse von Stimmung ist zwar normalerweise nicht im selben Kontext wie die Verarbeitung natürlicher Sprache gedacht; sie bildet jedoch einen wichtigen Teil des Gesprächs- und Interaktionsmusters von Menschen.

Stimmungsanalyse ermöglicht es Unternehmen, Kunden-Feedbacks zu analysieren. So können häufig auftretende Beschwerden identifiziert und kritische Trends im Zeitverlauf verfolgt werden. Unternehmen erhalten so ein vollständigeres Bild der Stimmung und Einstellungen des Kunden.

Die Stimmung ist in vielerlei Hinsicht ein wichtiger Faktor: Sie ist quasi die emotionale Komponente menschlicher Konversation; sie macht nur innerhalb der menschlichen Konversation oder der zwischenmenschlichen Interaktion Sinn. Tatsächlich ist die Analyse von Gefühlen (Emotional Analytics, EA) wichtig, um die Absicht der Person zu verstehen, die kommuniziert.

Dialogsysteme nutzen natürliche Sprache auch, um wichtige Informationen aus großen Dokumenten zu extrahieren. Anstatt NLP nur zu verwenden, um Konversationskontext und -verständnis zu vermitteln, können wir NLP-Ansätze nutzen, damit Maschinen Tausende von Dokumenten verarbeiten und ihre wichtigsten Inhaltskomponenten zusammenfassen.

Entsprechend analysieren KI-Systeme heute Pressemitteilungen, Finanzdokumente, Geschäftsdokumente, E-Mail-Nachrichten, Voicemail, Bilder, Krankenakten, Verträge, Hypotheken, Versicherungspolicen, Präsentationen und viele andere Dokumenttypen.

Die KI-Systeme finden in diesen unstrukturierten Daten detaillierte Informationen und generieren aus quantitativen Daten lesbare Narrative. KI fasst diese großen Dokumente auch in kürzeren Dokumenten zusammen, die in anderen Kommunikationsformen verwendet werden können. Systeme zur Inhaltszusammenfassung sind sogar in der Lage, Nachrichtenartikel aus Social-Media-Inhalten und anderen Daten zu generieren.

Generierung von Inhalten

Ähnlich wie das Zusammenfassen von Inhalten kann KI auch Content erzeugen. Dabei erstellen Maschinen Inhalte im menschlichen Sprachformat – entweder vollständig autonom oder aus Quellmaterial. Die Content-Generierung kann in einer Vielzahl von Formen erfolgen, einschließlich Bild-, Text-, Audio- und Videoformaten. So werden KI-Systeme zum Beispiel zunehmend dazu verwendet, aktuelle Nachrichten zu generieren. Sie schließen so beispielsweise die Lücke, bis menschliche Reporter in der Lage sind, die Szene zu erreichen.

Reuters verwendet KI, um Twitter-Feeds nach aktuellen Nachrichten zu durchsuchen, bevor sie zu Schlagzeilen werden. Der Heliograf-Bot der Washington Post hat im Jahr 2017 über 850 Artikel zu Nachrichten erstellt, die sich schnell ändern. KI-Systeme werden verwendet, um Sportinhalte zu generieren, insbesondere für Reporter, die nicht an allen lokalen und regionalen Sportveranstaltungen teilnehmen können.

KI wird auch zur Erzeugung von Video- und Audio-Inhalten genutzt. Der Entertainment-Konzern 21st Century Fox verwendet KI, um Filmtrailer zu erstellen, Akteure in Sportbegegnungen hervorzuheben und andere visuelle Inhalte zu erstellen. Diese Systeme können auch bei der Erstellung von Soundtracks, Hintergrundmusik und sogar ganzen Musikalben helfen. Im Jahr 2018 soll zum Beispiel Taryn Südens Album I AM AI komplett von ein KI-System produziert und komponiert worden sein.

Maschinenübersetzung

Die Fernsehserie Star Trek thematisiert die Vision des Universalübersetzers, bei dem jede Sprache automatisch in die Muttersprache aller Beteiligten übersetzt werden kann. Obwohl wir von diesem Ziel noch weit entfernt sind, ermöglicht KI bereits seit Jahren maschinelle Übersetzung (Machine Translation) – mit wachsendem Erfolg. Die maschinelle Übersetzung kombiniert Aspekte der NLU und der Inhaltszusammenfassung mit der Inhaltegenerierung, um Content zwischen verschiedenen Sprachen zu übersetzen. Maschinelle Übersetzung fällt in das Konversationsmuster, obwohl das Ziel darin besteht, eine bessere Mensch-Mensch-Kommunikation zu ermöglichen.

Maschinelle Übersetzung ermöglicht den Zugriff auf Informationen, die in einer Sprache geschrieben oder gesprochen wurden, die für den Kommunikator nicht typisch ist. Sie ermöglicht die Kommunikation mit anderen Personen, die möglicherweise keine Muttersprachenkenntnisse haben, erhöht die Reichweite von Marketing- und Werbeinhalten und verbessert die Zugänglichkeit von Support- und Hilfsinhalten. Und sie bietet eine inhaltliche Analysemöglichkeit von fremdsprachigem Material.

Eine der großen Herausforderungen der maschinellen Übersetzung besteht darin, dass Sprache kultur- und kontextspezifisch ist, voller Nuancen und mit Slang, Ungenauigkeiten und Umgangsformen verbunden ist. Dies macht es schwierig, den Inhalt und die Absicht des Gesagten beziehungsweise Geschriebenen genau zu übersetzen.

Facebook hat erhebliche Wellen geschlagen, indem es einen einzigartigen Ansatz mit unbeaufsichtigter maschineller Übersetzung verwendete. Die Technologie kann Formen von Sprachkontexten und die Beziehungen zwischen Wörtern erkennen, um eine zuverlässigere Sprachübersetzung zu ermöglichen.

Werden KI-Gespräche bald Realität?

Die Trends der Conversational AI sind für KI-Projekte ebenso grundlegend wie Predictive Analytics, Muster- und Anomalie-Erkennung, autonome Systeme, Hyperpersonalisierung und zielgerichtete Systemmuster. Wie in den anderen KI-Gebieten wird in sprachbasierter KI weiterhin intensiv geforscht und es werden praktisch einsetzbare Produkte entwickelt. Bald werden wir vielleicht in der Lage sein, perfekte Gespräche mit Maschinen zu führen – und angesichts der rasanten Entwicklung könnte dieser Tag nicht allzu weit entfernt sein.

Nächste Schritte

Maschinen müssen zwangsläufig emotional intelligent werden.

Fünf Schritte zur Implementierung künstlicher Intelligenz.

Wann ist künstliche Intelligenz im ITSM sinnvoll?