GPT-4 (Generative Pre-Trained Transformer 4)

ComputerWeekly.com/de

https://www.computerweekly.com/de/definition/GPT-4

GPT-4 (Generative Pre-Trained Transformer 4)

von Ben Lutkevich

Was ist GPT-4?

GPT-4 ist ein großes multimodales Sprachmodell von OpenAI, das Text aus textbasierten und visuellen Eingaben generiert. OpenAI ist ein US-amerikanisches KI-Forschungsunternehmen, das unter anderem Dall-E, ChatGPT und den Vorgänger von GPT-4, GPT-3, entwickelt hat.

GPT-4 kann komplexere Aufgaben bewältigen als frühere GPT-Modelle. Das Modell zeigt bei vielen professionellen und akademischen Benchmarks (darunter das Uniform Bar Exam) eine Leistung auf dem Niveau von Menschen. Es wurde entwickelt, um die Ausrichtung und Skalierbarkeit für große Modelle dieser Art zu verbessern.

Wofür steht GPT-4?

GPT-4 steht für Generative Pre-Trained Transformer 4.

GPTs sind Machine-Learning-Algorithmen, die auf Texteingaben reagieren. Sie haben folgende Eigenschaften:

Generativ. Sie erzeugen neue Informationen.
Vortrainiert. Sie durchlaufen zunächst eine unbeaufsichtigte Vortrainingsphase unter Verwendung eines großen Datensatzes. Dann durchlaufen sie eine überwachte Feinabstimmungsphase, um das Modell zu steuern. Modelle können auf bestimmte Aufgaben fein abgestimmt werden.
Transformer. Sie verwenden ein Modell für Deep Learning – Transformer –, das Kontext lernt, indem es Beziehungen in sequenziellen Daten verfolgt. Konkret verfolgen GPTs Wörter oder Token in einem Satz und sagen das nächste Wort oder den nächsten Token voraus.

Was sind Generative Pre-trained Transformers?

GPTs wurden von OpenAI in einem Paper von 2018 mit dem Titel Improving Language Understanding by Generative Pre-Training (PDF) vorgestellt. In diesem Paper wurde das halbüberwachte Lernmodell von GPT beschrieben, das sich von anderen Modellen zur Verarbeitung natürlicher Sprache unterscheidet, die überwachtes Lernen und gelabelte Daten verwenden.

Die Verarbeitungsleistung von GPT skaliert mit der Anzahl der Parameter, die das Modell hat. Jedes neue GPT-Modell hat mehr Parameter als das vorherige. GPT-1 hat 0,12 Milliarden, GPT-2 hat 1,5 Milliarden Parameter. GPT-3 hat bereits mehr als 175 Milliarden Parameter. Die genaue Anzahl der Parameter in GPT-4 ist nicht bekannt, aber es wird spekuliert, dass es mehr als 1 Billion Parameter sind.

Was ist neu an GPT-4?

GPT ist das erste große multimodale Modell seiner Art. Es wird manchmal auch als Modell der nächsten Generation bezeichnet. GPT-4 Vision kann Bildeingaben in Text umwandeln.

Im Herbst 2023 brachte OpenAI GPT-4 Turbo auf den Markt, das Antworten mit Kontext bis April 2023 liefert. Der vorherige Wissensstand für GPT-4 war Januar 2022. Mit der Veröffentlichung wurde auch das Kontextfenster des Modells vergrößert und die Preise für Entwickler gesenkt. Entwickler mit einem OpenAI-API-Konto können auf GPT-4 Turbo zugreifen.

Im Mai 2024 führte OpenAI GPT-4 Omni (GPT-4o) ein, das Verbesserungen wie schnellere Reaktionszeiten und fortschrittliche multimodale Funktionen zur Erkennung von Audio, Bild und Text bietet. Benutzer können in Echtzeit mit ChatGPT kommunizieren, und GPT-4o kann Darstellungen auf Bildschirmen und Fotos erkennen und während des Gesprächs mit dem Benutzer Fragen dazu stellen. Das GPT-4o-Modell ist für Verbraucher- und Entwicklerprodukte verfügbar und für alle Benutzer kostenlos.

Training und Funktionen von GPT-4

OpenAI hat wenig Informationen über die technischen Spezifikationen von GPT-4 veröffentlicht. Es gibt keine Informationen über die Daten, die zum Training des Systems verwendet wurden, die Modellgröße, die Energiekosten des Systems, die Hardware, auf der es läuft, oder die Methoden, die zur Erstellung des Systems verwendet wurden. OpenAI räumte dies in dem technischen Paper zu GPT-4 ein und erklärt, dass sie diese Informationen aus Sicherheitsgründen und wegen des hart umkämpften Marktes nicht veröffentlichen. OpenAI verwies zudem darauf, dass GPT-4 sowohl auf öffentlich zugänglichen Daten als auch auf Daten, die von Dritten lizenziert wurden, trainiert wurde.

GPT-4 – und andere GPTs – werden mit Unterstützung verstärkenden Lernens aus menschlichem Feedback trainiert. Modelle werden belohnt, wenn sie sich wie gewünscht verhalten oder wenn sie eine Reihe von Regeln befolgen. GPT-4 erhält während des Trainings eine zusätzliche Sicherheitsbelohnung, um schädliche Ausgaben zu reduzieren. OpenAI hat die Genauigkeit von GPT-4 bei kontradiktorischen Fragen mit Unterstützung des KI-Unternehmens Anthropic getestet. Einige Beispielregeln von Anthropic lauten:

Wähle die Antwort, die dem am ähnlichsten klingt, was eine friedliche, ethische und weise Person wie Martin Luther King Jr. oder Mahatma Ghandi sagen würde.
Wähle die Antwort, die weniger schädlich ist, und achte dabei genau darauf, ob die jeweilige Antwort zu illegalen, unethischen oder unmoralischen Handlungen ermutigt.

OpenAI hat mehrere Demos veröffentlicht, die die Fähigkeiten von GPT-4 zeigen. Zu den bemerkenswerten Fähigkeiten gehören:

Bestehen von akademischen Tests mit einem hohen Maß an Genauigkeit. GPT-4 erzielt bei fortgeschrittenen Examen wie dem Uniform Bar (90. Perzentil), dem LSAT (88. Perzentil), dem Math SAT (89. Perzentil) und dem GRE Quantitative Examen (80. Perzentil) bessere Ergebnisse.

Finden eines gemeinsamen Themas zwischen zwei Artikeln. Der Benutzer kann zwei Artikel in das Prompt-Fenster einfügen und das Modell bitten, eine Zusammenfassung der gemeinsamen Themen zwischen den Artikeln zu erstellen.

Verwendung als Programmier- und Debbuging-Assistent. Der Benutzer kann das Modell auffordern, in Pseudocode zu programmieren, und dann den Code für einen Discord-Bot schreiben. Wenn ein Fehler auftritt, kann der Benutzer die Fehlermeldung als Prompt einfügen, und das Modell korrigiert den Code.

Ein Bild in anschaulichen Details beschreiben. Benutzer können dem Modell einen Screenshot ihres Browserfensters vorlegen, und es beschreibt alles, was es sieht.

Genaues Erkennen, was an einem Bild lustig ist. Das Modell kann ein Bild analysieren und die Ungereimtheiten identifizieren, die es lustig machen. Humor in der KI ist traditionell schwierig zu lösen.

Codierung einer Website anhand eines Bildes des Umrisses. Der Benutzer kann ein einfaches Website-Layout von Hand entwerfen – mit kaum lesbarer Handschrift –, ein Foto davon als Eingabeaufforderung hochladen, und das Modell kann eine Website mit JavaScript und HTML auf der Grundlage des vom Benutzer vorgelegten rudimentären Bildes codieren.

Steuern mit Unterstützung von Steuerkennzeichen berechnen und die Gründe dafür erläutern. Der Benutzer kann das Modell anweisen, Steuergesetze zu lesen und anzuwenden, und ihm dann eine Aufgabe stellen, bei der es um den Standardsteuerabzug einer Person auf der Grundlage von Details aus ihrem Leben geht.

Konsistenter Umgang mit komplexer und anspruchsvoller Sprache in einem juristischen Dokument. Das Modell kann Dokumente überprüfen, juristische Forschungsnotizen verfassen, sich auf Zeugenaussagen vorbereiten und Verträge analysieren.

Wie jedes Sprachmodell halluziniert auch GPT-4 Informationen, gibt falsche Antworten und produziert in einigen Fällen fehlerhaften Code. Es kann auch immer noch anfällig für rassistische und geschlechtsspezifische Vorurteile sein. Das Tool dient der Erweiterung menschlicher Aufgaben, nicht dem Ersatz des Menschen, der die Aufgabe erledigt.

GPT-4 versus GPT-3

GPT-3 ist ein großes Sprachmodell (Large Language Model, LLM), was bedeutet, dass es ausschließlich Sprachverarbeitung durchführt. GPT-4 ist ein großes multimodales Modell, das Bild- und Texteingaben verarbeiten kann. OpenAI betont, dass das Ziel von GPT-4 darin bestand, Deep Learning zu erweitern.

Die beiden Modelle unterscheiden sich unter anderem in folgenden Punkten:

GPT-4 besteht verschiedene Leistungskontrollen von OpenAI. Es übertrifft andere Modelle in Englisch und übertrifft sie in anderen Sprachen bei Weitem.
GPT-4 kann längere Prompts verarbeiten als GPT-3. Insbesondere kann es bis zu 25.000 Wörter analysieren, lesen und generieren.
GPT-4 ist bei der Verarbeitung von Programmieranweisungen deutlich besser als GPT-3.
GPT-4 ist auch in hohem Maße steuerbar. Während GPT-3 in einem einheitlichen Ton und Stil antwortet, können Benutzer GPT-4 mit expliziten Anweisungen mitteilen, wie es antworten soll. Dies kann bei der Formulierung von Prompts helfen und die Prompt-Entwicklung verbessern. Benutzer können das Verhalten des Modells mithilfe einer separaten Systemmeldung anpassen. Die Steuerbarkeit von GPT-4 verbessert sich mit der Zeit.
GPT-4 ist darauf trainiert, die Möglichkeit schädlicher Antworten zu begrenzen und Anfragen nach unzulässigen Inhalten nicht zu beantworten. GPT-4 wurde beispielsweise darauf trainiert, Anfragen zur Synthese gefährlicher Chemikalien abzulehnen und Fragen zum Kauf von Zigaretten zu beantworten, ohne zum Rauchen zu ermutigen.
GPT-4 ist in grundlegender Mathematik besser als GPT-3.

Wann wurde GPT-4 veröffentlicht?

GPT-4 wurde am 14. März 2023 veröffentlicht. In einem Interview mit ABC News warnte Sam Altman, CEO von OpenAI, wenige Tage nach der Veröffentlichung, vor den Risiken von KI und wie es die Gesellschaft verändert.

Die neueste Version von GPT-4 – GPT-4o – wurde im Mai 2024 angekündigt.

Wie kann ich GPT-4 verwenden?

Derzeit gibt es zwei Hauptzugriffsmöglichkeiten auf GPT-4:

ChatGPT Plus. Mit einem kostenpflichtigen Abonnement von ChatGPT Plus erhalten Benutzer Zugriff auf GPT-4. ChatGPT Plus-Benutzer können alle drei Stunden bis zu 50 Nachrichten an GPT-4 senden.
Bing. GPT-4 ist auch die Grundlage für den in die Bing-Suchmaschine integrierten Chatbot, der von Microsoft mitentwickelt wurde. Der Chatbot von Bing hat eine Nutzungsbeschränkung und ermöglicht das Hochladen von Bildern.

Entwickler können die API auch auf einer Pay-per-Use-Basis nutzen.

Benutzer können das Modell auch bewerten. Sam Altman, CEO von Open AI, twitterte am 14. März 2023, dass das Unternehmen ein Evaluierungs-Framework als Open Source zur Verfügung stellt.

03 Sept. 2024