ipopba - stock.adobe.com

GPT-5: welche Neuerungen das Modell bietet und wo es hakt

GPT-5 bietet präzisere Antworten, besseres Verständnis komplexer Kontexte, Multimodalität und schnellere Ergebnisse. In der Praxis zeigen sich allerdings noch ein paar Schwächen.

GPT-5 markiert einen entscheidenden Entwicklungsschritt im Verhältnis zu vorherigen OpenAI-Modellen. Während GPT-3 von Sam Altman als Gespräch mit einem Schüler beschrieben wurde und GPT-4o den Eindruck eines Studenten vermittelte, bewegt sich GPT-5 laut OpenAI auf dem Niveau eines promovierten Experten. Diese neue Stufe zeigt sich nicht nur in den Benchmarks, sondern auch im praktischen Einsatz in Entwicklung, Forschung, Bildung und in der Unternehmensanwendung allgemein.

Die Entwicklung von GPT-5 wurde von sicherheitsrelevanten Überlegungen geprägt. Frühere Modelle reagierten auf sensible Eingaben häufig mit pauschalen Verweigerungen oder unvollständigen Antworten, während GPT-5 das Konzept der Safe Completion einführt. Anstatt Anfragen kategorisch abzulehnen, liefert das Modell nun kontextbezogene, sicherheitskonforme Teilantworten und verweist auf alternative Informationsquellen oder Herstellerangaben. Dual-Use-Szenarien, wie bei der Abfrage von chemischen Stoffen, werden so differenzierter und nachvollziehbarer behandelt.

Ergänzend dazu wurde das Trainingsverfahren überarbeitet. Erstmals nutzen die Entwickler synthetische Curricula, die von vorherigen Modellgenerationen erstellt wurden. Damit entsteht ein rekursiver Lernprozess, in dem frühere Modelle qualitativ hochwertige Trainingsdaten für ihre Nachfolger erzeugen. Dieser Ansatz geht über reines Pretraining hinaus und bildet eine Grundlage für eine systematische Weiterentwicklung hin zu stabileren und leistungsfähigeren Sprachmodellen.

Zusammenfassung

GPT-5 ist ein bedeutender Fortschritt gegenüber seinen Vorgängern, da es laut OpenAI das Niveau eines promovierten Experten erreicht und sich in Bereichen wie Coding und Forschung auszeichnet. Sicherheitsbedenken werden durch Safe Completion statt pauschaler Ablehnungen adressiert, und das Modell integriert Reasoning-Modelle für eine ausgewogene Geschwindigkeit und Detailtiefe. Begrenzte Steuerbarkeit bei vagen Aufgaben und die unvollständige Integration in professionelle Workflows sind aber Nachteile des Modells.

Verbesserte Architektur und Reasoning

Ein Fortschritt ist die Integration der sogenannten Reasoning-Modelle in das Standardmodell. Nutzer mussten bislang zwischen schneller Antwort oder tiefem Nachdenken wählen. GPT-5 eliminiert diese Trennung, da es automatisch die angemessene Tiefe wählt. Damit soll eine Balance aus Geschwindigkeit, Zuverlässigkeit und Detailtiefe gelingen, ohne dass explizit zwischen Modellen gewechselt werden muss.

Benchmarks und akademische Tests

Die Leistungssteigerungen lassen sich an konkreten Prüfungen belegen. In mathematischen Wettbewerben wie AIME 2025 erreicht GPT-5 über 70 Prozentpunkte, im Harvard-Mathematikturnier sowie bei Doktorandenfragen in Physik, Recht und Biomedizin übertrifft es menschliche Experten. Auch bei multimodalen Benchmarks wie MMMU zeigt sich ein deutliches Plus im Verständnis komplexer Bilder.

Hervorzuheben sind auch die Ergebnisse bei Coding Benchmarks. Auf SWEBench erzielt GPT-5 laut OpenAI 74,9 Prozent im Vergleich zu 69,1 Prozent bei o3. Auf Aider Polyglot liegt die Quote bei 88 Prozent. Das Modell erzielt in verschieedenen Benchmarks Ergebnisse von fast 99 Prozent und stößt damit an die Grenze dessen, was mit den bisherigen Testverfahren messbar ist.

GPT-5 Screenshot
Abbildung 1: GPT-5 punktet unter anderem mit kreativeren Antworten im Vergleich zu GPT-4o und älteren Modellen.

Kontextlänge und Speicher

Ein weiterer Sprung zeigt sich in der Kontextgröße. Während GPT-4o 200.000 Token verarbeiten konnte, erweitert GPT-5 das Fenster auf 400.000 Token. Damit ist die Bearbeitung umfangreicher Dokumente möglich, beispielsweise von Software-Repositories oder vollständigen Vertragswerken. Ergänzend verbessert OpenAI die Nutzung durch eigene Evaluierungen, die zeigen, dass die Qualität über den gesamten Kontext erhalten bleibt.

Die Speicherfunktion wurde ebenfalls vertieft. GPT-5 kann nicht nur individuelle Gespräche fortsetzen, sondern auch über längere Zeiträume Informationen zu Vorlieben, Projekten und Kommunikationsstilen behalten. Für Pro-Nutzer ist der Zugriff auf externe Quellen wie Google Calendar und Gmail verfügbar, wodurch Planungen, E-Mail-Bearbeitung und Terminorganisation automatisierbar werden.

Programmierung und Agentic Coding

Ein weiterer Fokus bei GPT-5 liegt auch auf dem Einsatz in der Softwareentwicklung. GPT-5 kann komplette Anwendungen generieren, iterativ Fehler beheben und eigenständig Strukturen anpassen. Neu ist die Fähigkeit, längere Sitzungen mit klarer Kommunikation und Zwischenschritten zu führen. Das Modell legt Pläne offen, erläutert Vorgehensweisen, erkennt irrelevante Compiler-Fehler und konzentriert sich auf die Kernaufgabe. In Cursor zeigte GPT-5, wie es Bugs identifiziert, Testumgebungen automatisiert und iterative Verbesserungen selbstständig durchführt.

Die API bringt ergänzend GPT-5 Mini und GPT-5 Nano, die für niedrigere Kosten und geringere Latenz ausgelegt sind. Entwickler können den Grad der Reasoning-Tiefe einstellen, etwa minimal für latenzkritische Anwendungen.

Anwendungsbeispiele und kreative Nutzung

GPT-5 zeigt seine Stärken nicht nur in Benchmarks, sondern auch in praxisnahen Szenarien. In Demonstrationen entstanden voll funktionsfähige Anwendungen, ein spielbares Tetris in Canvas und ein Excel-Klon mit Formelfunktionalität, Export-Optionen und dynamischer Zeilen- und Spaltenverwaltung. Websites mit Navigation, Farbverläufen und modernisierten Schriftarten können durch iterative Prompts Schritt für Schritt verbessert werden.

Abseits der Softwareentwicklung eröffnen sich neue Einsatzfelder im Alltag. Von der Analyse und Zusammenfassung juristischer Dokumente über die grafische Verarbeitung von Fotos bis hin zur Generierung von Bildern und Videos in hoher Qualität. Hervorzuheben sind die integrierten KI-Agenten, die eigenständig in separaten Browserumgebungen Aufgaben erledigen, Routen planen oder E-Mails priorisieren.

GPT-5 erweitert die Möglichkeiten in allen klassischen Bereichen. Texte werden stilistisch präziser, faktenorientierter und zeigen mehr Nuancen als die Vorgängermodelle. In der Websuche, beim Prompt Engineering und bei Deep Research bewährt sich die Fähigkeit, Zwischenergebnisse zu strukturieren und eigene Überlegungen transparent zu machen.

Im Gesundheitswesen zeigt sich besondere Bedeutung. GPT-5 reduziert Halluzinationen bei medizinischen Fragen signifikant und erzielte in Benchmarks höhere Genauigkeit als GPT-4o. Das Modell kann bei der Verarbeitung von Diagnosebefunden, dem Abwägen von Therapieoptionen und der Formulierung von Fragen für Fachärzte helfen.

Sprache, Stimme und Personalisierung

Im Sprachmodus bietet GPT-5 natürlichere Stimmen als die Vorgängerversionen, inklusive Videoanbindung und Übersetzung in Echtzeit. Nutzer der kostenlosen Version erhalten stundenweise Zugriff, Plus- und Pro-Abonnenten nahezu unbegrenzte Nutzung. Im Lernmodus lassen sich Fremdsprachen trainieren, wahlweise langsam für Einsteiger oder schneller als Muttersprachler.

Neben der Stimme lassen sich jetzt auch Persönlichkeiten definieren. Unterstützt werden Varianten wie professionell, knapp, unterstützend oder sarkastisch. Zusätzlich können individuelle Personas genutzt werden, darunter Zyniker, Roboter, Zuhörer, Nerd und die Standardausprägung. Die Anpassung reicht bis zur Farbauswahl der Oberfläche. Entscheidender ist jedoch die weiterentwickelte Gedächtnisfunktion. Chatverläufe und persönliche Präferenzen werden über längere Zeiträume hinweg gespeichert und aktiv in Antworten einbezogen.

Grenzen und Kritikpunkte

Trotz aller Fortschritte bleiben Einschränkungen bestehen. In den ersten Tagen des Rollouts traten Fehler und Abstürze auf, einzelne Anwendungen wie die grafische Rekonstruktion von Webseiten lieferten unvollständige Resultate. Auch wenn Halluzinationen um bis zu 80 Prozent reduziert wurden und in internen Tests sechsmal weniger Fehler auftraten, bleibt die Möglichkeit falscher oder unpräziser Antworten bestehen.

Die Abhängigkeit von Internetanbindung, begrenzte Steuerbarkeit bei vagen Aufgabenstellungen und die weiterhin nicht vollumfängliche Integration in professionelle Workflows markieren ebenfalls offene Baustellen.

Vergleich mit GPT-4o und Kritik aus der Praxis

Im direkten Vergleich zu GPT-4o zeigte sich, dass GPT-5 nicht in allen Bereichen überlegen ist. Nutzer bemängeln, dass die Texte zum Teil distanzierter wirken und die automatische Modellauswahl zu unerwarteten Ergebnissen führen kann. Während GPT-4o bei der Rekonstruktion von Benutzeroberflächen aus Screenshots schneller und unmittelbarer lauffähigen Code erzeugte, legte GPT-5 mehr Wert auf optische Qualität, lieferte jedoch teils unvollständige Funktionen.

Auch bei der Verarbeitung langer Dokumente fiel auf, dass GPT-4o eine detailliertere Struktur mit Abschnittstiteln und Seitenzahlen zurückgab, während GPT-5 eher übergeordnete Ergebnisse präsentierte. Die Bewertung hängt daher vom Nutzungskontext ab. Für strategische Analysen liefert GPT-5 häufig differenziertere Antworten, für operative Aufgaben war GPT-4o in Tests oft direkter und praktischer.

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)