Der Unterschied von Speech Recognition und Voice Recognition

Es ist leicht, über die Unterschiede zwischen Spracherkennung und Stimmerkennung verwirrt zu werden. Jeder hat eine spezifische Rolle in Unified Communications.

von

Jon Arnold, J Arnold & Associates

Zuletzt aktualisiert: 16 Okt. 2020

Das Thema Spracherkennung (Speech Recognition) versus Stimmerkennung (Voice Recognition) ist ein großartiges Beispiel für zwei Technologiebegriffe, die scheinbar problemlos austauschbar sind, sich aber bei näherer Betrachtung deutlich unterscheiden.

Die Wörter Sprache und Stimme lassen sich scheinbar gegenseitig austauschen, ohne Verwirrung zu stiften, obwohl sie unterschiedliche Bedeutungen haben. Sprache ist eine stimmbasierte Kommunikationsform, aber es gibt auch andere Arten des Stimmausdrucks, die nicht sprachbasiert sind, zum Beispiel Lachen, der Tonfall oder nonverbale Äußerungen.

Die Dinge werden nuancierter, wenn man sowohl Sprache als auch der Stimme die Erkennung hinzufügt. Damit betreten wir die Welt der automatischen Spracherkennung (Automatic Speech Recognition, ASR), wo es Anwendungen gibt, die speziell darauf zugeschnitten sind, aus dem gesprochenen Wort bestimmte Formen des Geschäftswerts zu extrahieren.

Im Folgenden werden Spracherkennung und Stimmerkennung erläutert, um die Unterschiede zwischen den beiden zu veranschaulichen.

Spracherkennung konzentriert sich auf das Übersetzen des Gesagten

Spracherkennung ist ein Bereich, in dem die automatische Spracherkennung einen großen geschäftlichen Nutzen bietet, sowohl für Collaboration- als auch für Contact-Center-Anwendungen. Die Schlüsselanwendung wäre hier Sprache-zu-Text-Verarbeitung (Speech to Text), bei der es darum geht, gesprochene Sprache eins zu eins in geschriebene Form zu übersetzen. In ihrer grundlegendsten Form besteht die Aufgabe der Spracherkennung darin, das Gesagte wörtlich in Text zu fassen.

Fortgeschrittene Formen der automatische Spracherkennung – nämlich solche, die sich Natural Language Understanding (NLU) und Machine Learning zunutze machen – injizieren künstliche Intelligenz (KI) zur Unterstützung von Funktionen, die über die wörtliche Genauigkeit hinausgehen.

Das Ziel besteht darin, Mehrdeutigkeiten zu erkennen und abzumildern, die natürlicherweise in Sprache auftreten, um Absichten auszudrücken, wobei der Kontext des Gesprächs zur Klärung des Gesagten beiträgt. Ohne dies können selbst die genauesten Sprache-zu-Text-Anwendungen leicht eine Ausgabe erzeugen, die weit von dem entfernt ist, worüber der Sprecher tatsächlich spricht.

Stimmerkennung ermittelt, wer was sagt

Im engeren Sinne könnte Spracherkennung auch als Stimmerkennung bezeichnet werden, und diese Beschreibung ist vollkommen akzeptabel, solange die zugrunde liegende Bedeutung klar verstanden wird. Für diejenigen, die in Sprachtechnologiekreisen arbeiten, gibt es jedoch eine kritische Unterscheidung zwischen Spracherkennung (Speech Recognition) und Stimmerkennung (Voice Recognition).

Während sich die Spracherkennung auf den Inhalt des Gesagten bezieht, konzentriert sich die Stimmerkennung darauf, die Sprecher richtig zu identifizieren und sicherzustellen, dass alles, was sie sagen, richtig zugeordnet wird.

Im Hinblick auf die Zusammenarbeit ist diese Fähigkeit für Konferenzen von unschätzbarem Wert, insbesondere wenn mehrere Personen gleichzeitig sprechen. Unabhängig davon, ob es sich um Untertitelung handelt, damit entfernte Teilnehmer in Echtzeit verfolgen können, wer was sagt, oder um Abschriften, die später überprüft werden sollen, ist genaue Stimmerkennung heute ein Muss für Unified Communications.

Neben der Zusammenarbeit spielt die Stimmerkennung eine wachsende Rolle bei der Überprüfung der Identität eines Sprechers. Dies ist ein entscheidender Gesichtspunkt, wenn es darum geht, zu bestimmen, wer an einer Telefonkonferenz teilnehmen kann, ob er die Erlaubnis hat, auf Computerprogramme oder eingeschränkte Dateien zuzugreifen, oder ob er befugt ist, eine Einrichtung oder kontrollierte Räume zu betreten.

In Fällen wie diesen geht es bei der Stimmerkennung nicht um die Sprache selbst oder den Inhalt des Gesagten, sondern um die Bestätigung der Identität des Sprechers. Zu diesem Zweck kann es genauer sein, die Stimmerkennung als eine Form von Sprechererkennung zu betrachten, da sie sich auf diese Weise leichter von der Spracherkennung unterscheiden lässt.

Der Unterschied von Speech Recognition und Voice Recognition

Es ist leicht, über die Unterschiede zwischen Spracherkennung und Stimmerkennung verwirrt zu werden. Jeder hat eine spezifische Rolle in Unified Communications.

Spracherkennung konzentriert sich auf das Übersetzen des Gesagten

Stimmerkennung ermittelt, wer was sagt

Erfahren Sie mehr über Softwareentwicklung

Neural Processing Unit (NPU)

Intelligenter Kundenservice: Was kann KI – und was nicht?

Polly, Rekognition, Lex und Bedrock: KI-Dienste in AWS nutzen

Computerlinguistik (CL)