Definition

Turing-Test

Der Turing-Test ist eine Untersuchungsmethode im Bereich der künstlichen Intelligenz (KI), mit der festgestellt werden soll, ob ein Computer in der Lage ist, wie ein Mensch zu denken oder nicht. Der Test ist nach Alan Turing benannt, dem Begründer des Turing-Tests und einem englischen Informatiker, Kryptoanalytiker, Mathematiker und theoretischen Biologen.

Turing schlug vor, dass ein Computer über künstliche Intelligenz verfügt, wenn er unter bestimmten Bedingungen menschliche Reaktionen nachahmen kann. Der ursprüngliche Turing-Test erfordert drei Terminals, von denen jedes physisch von den beiden anderen getrennt ist. Ein Terminal wird von einem Computer bedient, während die beiden anderen von Menschen bedient werden.

Während des Tests fungiert einer der Menschen als Fragesteller, während der zweite Mensch und der Computer als Befragte fungieren. Der Fragesteller befragt die Befragten zu einem bestimmten Themenbereich in einem vorgegebenen Format und Kontext. Nach einer bestimmten Zeitspanne oder einer bestimmten Anzahl von Fragen wird der Fragesteller gebeten, zu entscheiden, welcher der Befragten ein Mensch und welcher ein Computer war.

Der Test wird viele Male wiederholt. Wenn der Fragesteller in der Hälfte der Testdurchläufe oder weniger die richtige Entscheidung trifft, wird der Computer als künstlich intelligent eingestuft, da der Fragesteller ihn als „genauso menschlich“ wie den menschlichen Befragten betrachtet.

Geschichte des Turing-Tests

Der Test ist nach Alan Turing benannt, der in den 1940er und 1950er Jahren Pionierarbeit auf dem Gebiet des maschinellen Lernens geleistet hat. Turing stellte den Test 1950 in seinem Aufsatz „Computing Machinery and Intelligence“ vor, als er an der Universität von Manchester lehrte.

In seiner Arbeit schlug Turing eine Abwandlung des so genannten „Imitation Game“ vor. Beim Imitation Game kommt keine künstliche Intelligenz zum Einsatz, sondern drei menschliche Teilnehmer in drei getrennten Räumen. Jeder Raum ist über einen Bildschirm und eine Tastatur verbunden. In einem Raum sitzt ein Mann, im anderen eine Frau und im dritten ein männlicher oder weiblicher Richter. Die Frau versucht, den Richter davon zu überzeugen, dass sie der Mann ist, und der Richter versucht herauszufinden, wer der Mann ist.

Turing ändert das Konzept dieses Spiels, um eine KI, einen Menschen und einen menschlichen Fragesteller einzubeziehen. Der Fragesteller hat dann die Aufgabe, zu entscheiden, welche KI und welche der Mensch ist. In der Wissenschaft wurde der Test entwickelt, und viele KIs haben ihn bestanden; eines der ersten Programme war ELIZA, das von Joseph Weizenbaum entwickelt wurde.

Beschränkungen des Turing-Tests

Der Turing-Test ist im Laufe der Jahre kritisiert worden, insbesondere weil die Art der Fragestellung in der Vergangenheit eingeschränkt werden musste, damit ein Computer eine menschenähnliche Intelligenz aufweisen konnte. Viele Jahre lang konnte ein Computer nur dann eine hohe Punktzahl erreichen, wenn der Fragesteller die Fragen so formulierte, dass sie mit Ja oder Nein zu beantworten waren oder sich auf ein enges Wissensgebiet bezogen. Wenn die Fragen offen formuliert waren und Antworten im Gespräch verlangt wurden, war es weniger wahrscheinlich, dass das Computerprogramm den Fragesteller erfolgreich täuschen konnte.

Darüber hinaus könnte ein Programm wie ELIZA den Turing-Test bestehen, indem es Symbole manipuliert, die es nicht vollständig versteht. John Searle vertrat die Ansicht, dass dies nicht auf eine mit dem Menschen vergleichbare Intelligenz schließen lässt.

Für viele Forscher ist die Frage, ob ein Computer einen Turing-Test bestehen kann oder nicht, irrelevant geworden. Anstatt sich darauf zu konzentrieren, wie man jemanden davon überzeugen kann, dass er mit einem Menschen und nicht mit einem Computerprogramm spricht, sollte man sich vielmehr darauf konzentrieren, wie man die Mensch-Maschine-Interaktion intuitiver und effizienter gestalten kann. Zum Beispiel durch die Verwendung einer dialogorientierten Schnittstelle.

Variationen und Alternativen zum Turing-Test

Es gibt eine Reihe von Abwandlungen des Turing-Tests, um ihn relevanter zu machen. Solche Beispiele sind:

  • Umgekehrter (Reverse) Turing-Test – bei dem ein Mensch versucht, einen Computer davon zu überzeugen, dass er kein Computer ist. Ein Beispiel hierfür ist ein CAPTCHA.
  • Total Turing Test – bei dem der Fragesteller auch Wahrnehmungsfähigkeiten sowie die Fähigkeit zur Manipulation von Objekten testen kann.
  • Minimum Intelligent Signal Test – bei dem nur wahr/falsch und ja/nein Fragen gestellt werden.

Später wurden Alternativen zu Turing-Tests entwickelt, da viele den Turing-Test für fehlerhaft hielten. Zu diesen Alternativen gehören Tests wie:

  • Der Marcus-Test, bei dem ein Programm, das eine Fernsehsendung „sehen“ kann, getestet wird, indem ihm sinnvolle Fragen zum Inhalt der Sendung gestellt werden.
  • Der Lovelace-Test 2.0 ist ein Test, bei dem KI durch die Prüfung ihrer Fähigkeit, Kunst zu schaffen, erkannt wird.
  • Winograd Schema Challenge ist ein Test, bei dem Multiple-Choice-Fragen in einem bestimmten Format gestellt werden.
Abbildung 1 zeigt, wie der Turing-Test angeordnet ist: Mit zwei Menschen und einem Computer.
Abbildung 1 zeigt, wie der Turing-Test angeordnet ist: Mit zwei Menschen und einem Computer.

Wie wird der Turing-Test heute eingesetzt?

Obwohl die Varianten des Turing-Tests oft besser auf unser heutiges Verständnis von KI anwendbar sind, wird das ursprüngliche Format des Tests auch heute noch verwendet. So wird beispielsweise seit 1990 jährlich der Loebner-Preis für das menschenähnlichste Computerprogramm verliehen, das von einer Jury ausgewählt wird. Der Wettbewerb folgt den Standardregeln des Turing-Tests. Kritiker der Relevanz des Preises spielen oft herunter, dass es mehr um Publicity geht als darum, zu testen, ob Maschinen wirklich denken können.

Bei einem Wettbewerb, der von der University of Reading anlässlich des 60. Todestages von Turing im Jahr 2014 veranstaltet wurde, hat ein Chatbot namens Eugene Goostman, der einen 13-jährigen Jungen simuliert, den Turing-Test in den Augen einiger bestanden, als er 33 Prozent der Juroren täuschte. Dieser so genannte erste Durchlauf wurde von denjenigen kritisiert, die argumentieren, dass es nicht genug Richter gab, dass andere Maschinen den Test in der Vergangenheit besser bestanden haben und dass der Test ungültig ist, weil er nur fünf Minuten dauerte.

Im Jahr 2018 hat Google Duplex erfolgreich einen Termin mit einem Friseur über das Telefon vor 7.000 Menschen vereinbart. Die Empfangsdame war sich überhaupt nicht bewusst, dass sie nicht mit einem echten Menschen gesprochen hat. Dies wird von einigen als modernes Bestehen des Turing-Tests angesehen, auch wenn es sich nicht auf das echte Format des Tests stützt, wie Alan Turing es entworfen hat.

GPT-3, ein von OpenAI entwickeltes Modell zur Verarbeitung natürlicher Sprache, hat nach Ansicht mancher die besten Chancen, den Test in seiner echten Form zu bestehen, von allen Technologien, die wir heute haben. Doch trotz seiner fortschrittlichen Fähigkeiten zur Texterstellung wird die Maschine von vielen kritisiert, weil sie dazu verleitet werden kann, unsinnige Fragen zu beantworten, und daher unter den Bedingungen des Turing-Tests nicht bestehen würde.

Trotz vieler Debatten über die heutige Relevanz des Turing-Tests und die Gültigkeit der darauf basierenden Wettbewerbe ist der Test immer noch ein philosophischer Ausgangspunkt für die Diskussion und Erforschung der KI. Während wir weiterhin Fortschritte in der KI machen und besser verstehen und abbilden, wie das menschliche Gehirn funktioniert, bleibt der Turing-Test grundlegend für die Definition von Intelligenz und ist eine Basis für die Debatte darüber, was wir von Technologien erwarten sollten, um sie als denkende Maschinen zu betrachten.

Diese Definition wurde zuletzt im Januar 2023 aktualisiert

Erfahren Sie mehr über Softwareentwicklung

ComputerWeekly.de
Close