Getty Images/iStockphoto

Basiswissen GPT-4o: Funktionen und Einschränkungen im Überblick

GPT-4o von OpenAI ist ein multimodales großes Sprachmodell, das unter anderem Echtzeit-konversationen, Antworten und Textgenerierung unterstützt. Es gibt auch die Version GPT-4o mini.

Die Grundlage für den Erfolg und die Popularität von OpenAI ist die GPT-Familie großer Sprachmodelle (LLMs) des Unternehmens, darunter GPT-3 und GPT-4, sowie der dialogorientierte KI-Dienst ChatGPT.

OpenAI kündigte GPT-4 Omni (GPT-4o) am 13. Mai 2024 während der Frühjahrspressekonferenz des Unternehmens als neues multimodales Sprachmodell an. Im Rahmen der Veranstaltung veröffentlichte OpenAI mehrere Videos, die die intuitiven Sprachantwort- und Ausgabefunktionen des Modells demonstrierten.

Im Juli 2024 brachte OpenAI GPT-4o mini auf den Markt, sein fortschrittlichstes kleines Modell.

Was ist GPT-4o?

GPT-4o ist das Flaggschiff-Modell des LLM-Technologieportfolios von OpenAI. Das o steht für omni (aus dem Lateinischen: alles, ganz) und ist nicht nur eine marketingtechnische Übertreibung, sondern bezieht sich auf die vielfältigen Modalitäten des Modells für Text, Bild und Audio.

Das GPT-4o-Modell markiert die nächste Evolutionsstufe des GPT-4 LLM, das OpenAI erstmals im März 2023 veröffentlicht hat. Dies ist auch nicht das erste Update für GPT-4, da das Modell im November 2023 mit der Einführung von GPT-4 Turbo einen Schub erhielt. Die Abkürzung GPT steht für Generative Pre-trained Transformer. Ein Transformer-Modell ist ein grundlegendes Element der generativen KI (genAI) und bietet eine neuronale Netzwerkarchitektur, die neue Ausgaben verstehen und generieren kann.

GPT-4o übertrifft GPT-4 Turbo sowohl in Bezug auf seine Fähigkeiten als auch auf seine Leistung. Wie seine Vorgänger GPT-4 kann GPT-4o für Anwendungsfälle der Textgenerierung verwendet werden, beispielsweise für Zusammenfassungen und wissensbasierte Fragen und Antworten. Das Modell ist außerdem in der Lage, zu argumentieren, komplexe mathematische Probleme zu lösen und zu programmieren.

Das GPT-4o-Modell führt eine neue schnelle Audio-Eingabeantwort ein, die laut OpenAI der eines Menschen ähnelt und eine durchschnittliche Antwortzeit von 320 Millisekunden hat. Das Modell kann auch mit einer KI-generierten Stimme antworten, die menschlich klingt.

Anstatt mehrere separate Modelle zu haben, die Audio, Bilder – von OpenAI als Vision bezeichnet – und Text verstehen, kombiniert GPT-4o diese Modalitäten in einem einzigen Modell. So kann GPT-4o jede Kombination aus Text-, Bild- und Audioeingaben verstehen und mit Ausgaben in jeder dieser Formen reagieren.

Das Versprechen von GPT-4o und seiner schnellen multimodalen Audio-Reaktionsfähigkeit besteht darin, dass das Modell eine natürlichere und intuitivere Interaktion mit den Benutzern ermöglicht.

OpenAI hat seit der ersten Veröffentlichung im Mai 2024 eine Reihe von schrittweisen Updates für GPT-4o herausgebracht. Im August 2024 wurde die Unterstützung für strukturierte Ausgaben hinzugefügt, mit denen das Modell Code-Antworten generieren kann, die innerhalb eines bestimmten JSON-Schemas funktionieren. Das jüngste Update für GPT-4o erfolgte am 20. November 2024 und bietet eine maximale Token-Ausgabe von 16.384, gegenüber 4.096 bei der ersten Veröffentlichung des Modells im Mai 2024.

Was ist GPT-4o mini?

Wie die Vollversion verfügt auch GPT-4o mini über ein 128K-Kontextfenster mit einer maximalen Token-Ausgabe von 16.384 Tokens. Die Trainingsdaten für GPT-4o mini reichen ebenfalls bis Oktober 2023.

Was GPT-4o mini vom Vollmodell unterscheidet, ist seine Größe, durch die es schneller und kostengünstiger läuft. OpenAI gibt derzeit die Parameteranzahl seiner Modelle nicht öffentlich bekannt.

Laut Anbieter ist GPT-4o mini intelligenter und 60 Prozent günstiger als GPT-3.5 Turbo, das bisher die kleinere und schnellere Modellvariante war.

In Bezug auf die Textintelligenz übertraf GPT-4o mini GPT-3.5 Turbo im Measuring Massive Multitask Language Understanding (MMLU)-Benchmark mit einer Punktzahl von 82 Prozent gegenüber 69,8 Prozent.

Für Entwickler ist GPT-4o mini eine attraktive Option für Anwendungsfälle, die nicht das vollständige Modell erfordern, dessen Betrieb teurer ist. Das Mini-Modell eignet sich gut für Anwendungsfälle mit einem hohen Volumen an API-Aufrufen, wie zum Beispiel Kunden-Support-Anwendungen, Belegdatenverarbeitung und E-Mail-Antworten.

GPT-4o mini ist in Text- und Bildmodellen für Entwickler mit einem OpenAI-Konto über die Assistants API, Chat Completions API und Batch API verfügbar. Seit Juli 2024 ersetzt GPT-4o mini GPT-3.5 Turbo als Basismodelloption in ChatGPT. Es ist auch eine Option für Nutzer von ChatGPT Plus, Pro, Enterprise und Team.

Was kann GPT-4o leisten?

Zum Zeitpunkt seiner Veröffentlichung war GPT-4o das leistungsfähigste aller OpenAI-Modelle, sowohl in Bezug auf Funktionalität als auch auf Leistung.

Zu den zahlreichen Funktionen von GPT-4o gehören unter anderem:

  • Echtzeitinteraktionen. Das GPT-4o-Modell kann ohne nennenswerte Verzögerungen in Echtzeit verbale Konversationen führen.
  • Wissensbasierte Fragen und Antworten. Wie alle früheren GPT-4-Modelle wurde auch GPT-4o mit einer Wissensdatenbank trainiert und kann Fragen beantworten.
  • Textzusammenfassung und -generierung. Wie alle früheren GPT-4-Modelle kann GPT-4o gängige LLM-Textaufgaben ausführen, darunter Textzusammenfassung und -generierung.
  • Multimodales Schlussfolgern und Generieren. GPT-4o integriert Text, Sprache und Bild in einem einzigen Modell, sodass es verschiedene Datentypen verarbeiten und darauf reagieren kann. Das Modell kann Audio, Bilder und Text mit derselben Geschwindigkeit verstehen. Es kann auch Antworten in Form von Audio, Bildern und Text generieren.
  • Sprach- und Audioverarbeitung. GPT-4o verfügt über erweiterte Funktionen für die Verarbeitung von mehr als 50 verschiedenen Sprachen.
  • Sentiment-Analyse. Das Modell versteht die Stimmung der Benutzer in verschiedenen Modalitäten wie Text, Audio und Video.
  • Stimmnuancen. GPT-4o kann Sprache mit emotionalen Nuancen generieren. Dadurch eignet es sich für Anwendungen, die eine sensible und nuancierte Kommunikation erfordern.
  • Audioinhaltsanalyse. Das Modell kann gesprochene Sprache generieren und verstehen, was in sprachaktivierten Systemen, der Audioinhaltsanalyse und interaktiven Geschichtenerzählungen angewendet werden kann.
  • Echtzeitübersetzung. Die multimodalen Fähigkeiten von GPT-4o unterstützen die Echtzeitübersetzung von einer Sprache in eine andere.
  • Bildverständnis und Vision. Das Modell kann Bilder und Videos analysieren, sodass Benutzer visuelle Inhalte hochladen können, die GPT-4o versteht, erklärt und analysiert.
  • Datenanalyse. Die Seh- und Schlussfolgerungsfähigkeiten ermöglichen es Benutzern, Daten in Datendiagrammen zu analysieren. GPT-4o kann auch Datendiagramme auf der Grundlage von Analysen oder einer Eingabeaufforderung erstellen.
  • Softwareentwicklung. GPT-4o kann neuen Code für eine Anwendung generieren sowie vorhandenen Code analysieren und debuggen.
  • Datei-Uploads. Über den Wissenshorizont hinaus unterstützt GPT-4o Datei-Uploads, sodass Benutzer bestimmte Daten für die Analyse analysieren können.
  • Speicher und Kontextbewusstsein. GPT-4o kann sich an frühere Interaktionen erinnern und den Kontext über längere Gespräche hinweg aufrechterhalten.
  • Großes Kontextfenster. Mit einem Kontextfenster, das bis zu 128.000 Tokens unterstützt, kann GPT-4o die Kohärenz über längere Gespräche oder Dokumente hinweg aufrechterhalten, wodurch es sich für detaillierte Analysen eignet.
  • Reduzierte Halluzinationen und verbesserte Sicherheit. Das Modell wurde entwickelt, um die Generierung falscher oder irreführender Informationen zu minimieren. Verbesserte Sicherheitsprotokolle stellen sicher, dass die Ergebnisse für die Benutzer angemessen und sicher sind.

Die Funktionen von GPT-4o unterstützen viele Anwendungsfälle in der Industrie, darunter die folgenden:

  • Kunden-Support. Unternehmen können GPT-4o zum Erstellen von Chatbots für Echtzeitinteraktionen verwenden.
  • Rechtswesen. GPT-4o kann Anwaltskanzleien dabei helfen, Fälle zusammenzufassen sowie Rechtsrecherchen und Vertragsprüfungen durchzuführen.
  • Medizin. Gesundheitsorganisationen können GPT-4o zur Analyse von Patientenakten und zur Unterstützung bei der Diagnose einsetzen.
  • Bildung und Schulung. GPT-4o kann Bildungseinrichtungen dabei helfen, interaktive Tutorials zu erstellen und Inhalte zu erklären.

So nutzen Sie GPT-4o

Es gibt mehrere Möglichkeiten, wie Benutzer und Unternehmen GPT-4o nutzen können.

  • ChatGPT Free. Das GPT-4o-Modell steht kostenlosen Benutzern des Chatbots ChatGPT von OpenAI zur Verfügung. Benutzer von ChatGPT Free haben eingeschränkten Zugriff auf Nachrichten und erhalten keinen Zugriff auf einige erweiterte Funktionen, darunter Bildverarbeitung, Datei-Uploads und Datenanalyse.
  • ChatGPT Plus. Nutzer des kostenpflichtigen Dienstes von OpenAI für ChatGPT erhalten vollen Zugriff auf GPT-4o, ohne die für kostenlose Nutzer geltenden Funktionseinschränkungen. Seit Dezember 2024 kostet ChatGPT Plus 20 US-Dollar pro Monat.
  • ChatGPT Pro. ChatGPT Pro – die fortschrittlichste Version von ChatGPT, die die o1-Modelle enthält – bietet ebenfalls Zugriff auf GPT-4o. Seit Dezember 2024 kostet ChatGPT Pro 200 US-Dollar pro Monat.
  • ChatGPT Team. Die gruppenorientierte Version von ChatGPT bietet ebenfalls Zugriff auf GPT-4o. Seit Dezember 2024 kostet ChatGPT Team 25 US-Dollar pro Benutzer und Monat.
  • API-Zugriff. Entwickler können über die API von OpenAI auf GPT-4o zugreifen. Dies ermöglicht die Integration in Anwendungen, um die Fähigkeiten von GPT-4o für Aufgaben voll auszuschöpfen. Die Preise für die API für GPT-4o betragen ab Dezember 2024 2,50 US-Dollar pro 1 Million Eingabe-Token und 10,00 US-Dollar pro 1 Million Ausgabe-Token. Die Preise für GPT-4o mini betragen 0,150 US-Dollar pro 1 Million Eingabe-Token und 0,600 US-Dollar pro 1 Million Ausgabe-Token.
  • Desktop-Anwendungen. OpenAI hat GPT-4o in Desktop-Anwendungen integriert, darunter eine neue App für Apple macOS, die ebenfalls am 13. Mai veröffentlicht wurde.
  • Benutzerdefinierte GPTs. Unternehmen können benutzerdefinierte GPT-Versionen von GPT-4o erstellen, die auf spezifische Geschäftsanforderungen oder Abteilungen zugeschnitten sind. Benutzerdefinierte Modelle können den Benutzern über den GPT Store von OpenAI angeboten werden.
  • Microsoft OpenAI Service. Benutzer können die Funktionen von GPT-4o in einem Vorschaumodus innerhalb des Microsoft Azure OpenAI Studio erkunden, das für die Verarbeitung multimodaler Eingaben, einschließlich Text und Bild, ausgelegt ist. Die Preise variieren je nach Region. Der weltweite Preis für GPT-4o beträgt 2,50 US-Dollar pro 1 Million Eingabe-Token und 10,00 US-Dollar pro 1 Million Ausgabe-Token, während der Preis für GPT-4o mini bei 0,150 US-Dollar pro 1 Million Eingabe-Token und 0,600 US-Dollar pro 1 Million Ausgabe-Token liegt.

Einschränkungen von GPT-4o

GPT-4o bietet zwar viele Funktionen, das Modell hat jedoch die folgenden Einschränkungen:

  • Kontextfenster. Das Kontextfenster von GPT-4o ist mit 128 KB für viele Aufgaben ausreichend, jedoch nicht für alle. Google gibt an, dass sein Modell Gemini Pro 1.5 über ein Kontextfenster mit 2 Millionen Tokens verfügt.
  • Wissensbegrenzung. Die Trainingsdaten für GPT-4o sind auf Daten bis Oktober 2023 beschränkt.
  • Risiko von Halluzinationen. Wie jedes generative KI-Modell ist auch GPT-4o nicht perfekt und birgt das Risiko, KI-Halluzinationen zu erzeugen.
  • Voreingenommenheit (Bias). Obwohl OpenAI versucht hat, Voreingenommenheit zu begrenzen, besteht weiterhin die Möglichkeit, dass das Modell Antworten liefert, die möglicherweise nicht repräsentativ für unterschiedliche Perspektiven sind.
  • Argumentation. GPT-4o ist in seiner Argumentationsfähigkeit eingeschränkt, insbesondere im Vergleich zur o1-Modellfamilie von OpenAI, die speziell für diese Herausforderung entwickelt wurde.
  • Sicherheit. Es besteht das potenzielle Risiko, dass GPT-4o durch feindliche Eingaben beeinflusst werden kann, die darauf abzielen, das Modell zu einer unerwarteten Ausgabe zu verleiten.

GPT-4 vs. GPT-4 Turbo vs. GPT-4o

Hier ein kurzer Überblick über die Unterschiede zwischen GPT-4, GPT-4 Turbo und GPT-4o:

Funktion/Model GPT-4 GPT-4 Turbo GPT-4o
Erscheinungsdatum 14. März 2023 November 2023 13. Mai 2024
Kontextfenster 8,192 Tokens 128,000 Tokens 128,000 Tokens
Wissensgrenze September 2021 Dezember 2023 Oktober 2023
Eingabemodalitäten Text, eingeschränkte Bildverarbeitung Text, Bilder (verbessert) Text, Bilder, Audio (volle multimodale Funktionalität)
Vision-Fähigkeiten Basis Verbessert, umfasst Bildgenerierung über Dall-E 3 Fortschrittliche Bild- und Audiofunktionen
Multimodale Fähigkeiten Eingeschränkt Verbesserte Bild- und Textverarbeitung Vollständige Integration von Text, Bild und Audio

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)