Definition

Überwachtes Lernen (Supervised Learning)

Überwachtes Lernen (Supervised Learning) ist im Kontext von künstlicher Intelligenz (KI) und Machine Learning eine Methode, bei der sowohl Input- als auch gewünschte Output-Daten bereitgestellt werden. Ein- und Ausgangsdaten werden zur Klassifizierung gekennzeichnet, um eine Lerngrundlage für die zukünftige Datenverarbeitung zu schaffen.

Der Begriff überwachtes Lernen entstammt der Idee, dass ein Algorithmus aus einem Trainingsdatensatz lernt, den man sich als eine Art Lehrer vorstellen kann.

Input- und Output-Daten werden zur Klassifizierung gekennzeichnet, um eine Lerngrundlage für die zukünftige Datenverarbeitung zu schaffen. In den meisten Fällen stellt dabei der Lehrer (Entwickler) den korrekten Funktionswert zu einem Input bereit. Aus den Paaren von Ein- und Ausgabedaten lernt der Algorithmus eine Funktion. Überwachte Machine-Learning-Systeme liefern den Lernalgorithmen bekannte Daten, um zukünftige Entscheidungen zu unterstützen.

Chatbots, selbstfahrende Autos, Gesichtserkennungsprogramme, Expertensysteme und Roboter gehören zu den Systemen, die entweder überwachtes oder unüberwachtes Lernen verwenden. Überwachte Lernsysteme sind meist mit Retrieval-KI-Systemen verbunden, können aber auch ein generatives Lernmodell verwenden.

Im Allgemeinen wird überwachtes Lernen verwendet, wenn einem System Input- und Output-Variablen mit der Absicht gegeben werden, dass dieses lernt, wie diese Variablen zusammengehören. Ziel ist es, eine genaue Mapping-Funktion zu erzeugen, die es dem Algorithmus ermöglicht, die Ausgabe vorherzusagen, wenn eine neue Eingabe erfolgt.

Dies ist ein iterativer Prozess, und jedes Mal, wenn der Algorithmus eine Vorhersage trifft, wird er korrigiert oder erhält ein Feedback, bis er ein akzeptables Leistungsniveau erreicht.

Die Trainingsdaten für das überwachte Lernen beinhalten eine Reihe von Beispielen mit gepaarten Input-Themen und gewünschtem Output (der auch als Supervision-Signal bezeichnet wird). So kann zum Beispiel eine KI-Anwendung für die Bildverarbeitung, die überwachtes Lernen einsetzt, mit beschrifteten Bildern von Fahrzeugen in Kategorien wie Pkw oder Lkw ausgestattet werden. Nach dem Lernprozess sollte das System in der Lage sein, unbeschriftete Bilder zu unterscheiden. Das System sollte zudem erkennen, wann der Lernprozess abgeschlossen ist.

Machine-Learning-Prozesse
Abbildung 1: Die Entwicklung von Machine-Learning-Prozessen folgt diesem Vorgehen.

Anwendungen für überwachtes Lernen werden typischerweise in zwei Kategorien unterteilt: Klassifizierung und Regression. Die Klassifizierung ähnelt dem obigen Beispiel, wenn der Ausgabewert eine Kategorie wie Pkw oder Lkw ist, und wahr oder falsch. Ein Regressionsproblem ist, wenn die Ausgabe ein echter, berechneter Wert wie Preis oder Gewicht ist.

Überwachte Lernalgorithmen

Gängige Algorithmen für überwachtes Lernen sind:

  • lineare Regression;
  • logistische Regression;
  • künstliche neuronale Netze;
  • lineare Diskriminanzanalyse;
  • Entscheidungsbäume;
  • Bayes'sche Logik;
  • Support Vector Machine (SVM);
  • Random Forest mit nicht korrelierende Entscheidungsbäumen.

Bei der Auswahl eines Algorithmus für überwachtes Lernen gibt es einige Dinge, die beachtet werden müssen. Dazu gehören Verzerrungen und Varianzen, die innerhalb des Algorithmus existieren. Ein weiterer ist die Komplexität des Modells oder der Funktion, die das System zu erlernen versucht.

Zusätzlich sollten die Heterogenität, Genauigkeit, Redundanz und Linearität der Daten analysiert werden, bevor ein Algorithmus ausgewählt wird.

Überwachtes versus unüberwachtes Lernen

Beim unüberwachten Lernen erhält ein Algorithmus nur Eingangsdaten ohne entsprechende Ausgangswerte. Im Gegensatz zum überwachten Lernen gibt es keine korrekten Ausgangswerte oder Lehrer. Stattdessen können Algorithmen frei funktionieren, um mehr über die Daten zu erfahren und Ergebnisse zu präsentieren. Unüberwachtes Lernen ist beliebt bei Cluster-Anwendungen oder bei der Vorhersage von Regeln, die die Daten beschreiben.

Überwachte Lernmodelle haben einige Vorteile gegenüber dem unüberwachten Ansatz, doch sie haben auch Nachteile. Die Systeme sind eher in der Lage, Urteile zu fällen, auf die sich Menschen beziehen können, da der Mensch die Grundlage für Entscheidungen geschaffen hat.

Im Falle einer Information-Retrieval-Methode haben überwachte Lernsysteme jedoch Schwierigkeiten beim Umgang mit neuen Informationen. Wenn zum Beispiel ein System mit Kategorien für Pkws und Lkws mit einem Fahrrad konfrontiert wird, müsste dieses falsch in die eine oder andere Kategorie eingeordnet werden. Wenn das KI-System jedoch generativ ist, weiß es unter Umständen nicht, was ein Fahrrad ist, aber es erkennt es als Teil einer separaten Kategorie.

Ein Ansatz, der sowohl überwachte als auch unüberwachte Methoden kombiniert, wird als semi-überwachtes Lernen bezeichnet. In diesem Fall werden nur einige der Eingangsdatenpunkte mit Ausgangsinformationen gekennzeichnet.

Diese Definition wurde zuletzt im September 2019 aktualisiert

Erfahren Sie mehr über IT-Berufe und Weiterbildung

ComputerWeekly.de
Close