sabida - stock.adobe.com

Feature

Warum generative KI nicht gut rechnen kann

Moderne generative KI-Modelle beherrschen Sprache meisterhaft, zeigen jedoch gravierende Schwächen bei Berechnungen. Die technischen Ursachen und spezialisierte KI-Alternativen.

von

Michael Eckert, Editorial Director

Zuletzt aktualisiert:09 Juni 2025

Generative KI-Systeme wie ChatGPT, Claude, DeepSeek oder Gemini haben in den letzten Jahren beeindruckende Fortschritte gemacht. Sie können überzeugende Texte verfassen, komplexe Konzepte erklären und sogar Programmcode schreiben. Bei einer scheinbar einfachen Aufgabe wie dem präzisen Rechnen stoßen diese Systeme jedoch überraschend schnell an ihre Grenzen. Warum ist das so?

Text statt Zahlen

Generative KI-Modelle wurden primär für die Verarbeitung natürlicher Sprache entwickelt. Im Kern sind sie darauf ausgerichtet, Texte zu verstehen und zu erzeugen, nicht mathematische Berechnungen durchzuführen. Diese fundamentale Ausrichtung prägt ihre gesamte Funktionsweise und erklärt viele ihrer Schwächen im Umgang mit Zahlen.

Die Architektur dieser Systeme basiert auf neuronalen Netzwerken, die darauf trainiert wurden, Muster in Texten zu erkennen und Wahrscheinlichkeiten für das nächste Wort oder Token zu berechnen. Diese Herangehensweise unterscheidet sich grundlegend von der eines Taschenrechners oder einer mathematischen Software. Die Ursachen für die Rechenschwächen:

Token-basierte Verarbeitung: Die Modelle verarbeiten Text in Form von Tokens (Wortteilen), nicht als mathematische Operationen. Wenn sie mit der Aufgabe 17×24 konfrontiert werden, sehen sie keine Multiplikationsoperation, sondern eine Sequenz von Zeichen.
Keine algorithmische Berechnung: Anders als ein Taschenrechner führen sie keine präzisen mathematischen Algorithmen aus. Stattdessen versuchen sie, basierend auf ihrem Training, eine Antwort auf eine mathematische Frage vorherzusagen.
Probabilistische Vorhersagen: Sie generieren Antworten basierend auf Wahrscheinlichkeiten, nicht auf deterministischen Berechnungen. Dies führt dazu, dass sie manchmal richtig und manchmal falsch liegen, ohne den Unterschied selbst zu erkennen.

Das Trainingsdilemma

Ein weiteres grundlegendes Problem liegt in der Art und Weise, wie diese Systeme trainiert werden. Ihre mathematischen Fähigkeiten stammen ausschließlich aus den Trainingsdaten, was mehrere Herausforderungen mit sich bringt.

Moderne KI-Modelle werden mit enormen Textmengen trainiert. Dabei handelt es sich oft um Hunderte von Gigabyte an Texten aus dem Internet, Büchern und anderen Quellen. Mathematische Beispiele sind in diesen Daten jedoch relativ selten enthalten. Selbst wenn mathematische Inhalte vorkommen, sind diese oft nicht darauf ausgerichtet, dem Modell das Rechnen beizubringen. Die Einschränkungen beim Training sind:

Begrenzte Beispiele: Die Trainingsdaten enthalten nur eine begrenzte Anzahl mathematischer Beispiele, insbesondere für komplexere Berechnungen oder spezifische Zahlenkombinationen.
Keine expliziten Regeln: Die Modelle lernen mathematische Operationen implizit aus Beispielen und nicht durch explizite Regeln. Sie verstehen nicht wirklich, was Multiplikation bedeutet, sondern erkennen nur Muster in den Ergebnissen. Es fehlt ihnen ein echtes Zahlenverständnis, wie es im menschlichen parietalen Kortex vorhanden ist.
Musterbasiertes Lernen: Die Modelle erkennen Muster wie 2+2=4 oder 7×8=56, ohne die zugrunde liegenden mathematischen Prinzipien wirklich zu verstehen. Dies führt dazu, dass sie bei bekannten Mustern gut funktionieren, bei ungewohnten Kombinationen jedoch versagen können.

Die Grenzen werden schnell sichtbar

In der Praxis zeigen sich die Grenzen der mathematischen Fähigkeiten generativer KI sehr deutlich. Bei einfachen Berechnungen, die häufig in Texten vorkommen, können diese Modelle durchaus korrekte Antworten liefern. Ein 2+2 oder 10×10 wird meist richtig beantwortet. Doch mit zunehmender Komplexität steigt die Fehleranfälligkeit. Die Ursachen:

Mehrstufige Berechnungen: Bei mehrschrittigen Rechenaufgaben häufen sich die Fehler, da die Modelle Schwierigkeiten haben, Zwischenergebnisse korrekt zu speichern und weiterzuverarbeiten.
Große Zahlen: Bei Berechnungen mit großen Zahlen nimmt die Genauigkeit ab, da solche Zahlen in natürlichen Texten seltener vorkommen und daher weniger gut trainiert sind.
Dezimalstellen: Die Handhabung von Dezimalstellen und Präzision ist oft fehlerhaft, besonders bei längeren Dezimalzahlen oder Brüchen.

So gibt beispielsweise Google Gemini auf die Frage „Was ist 9465748 + 234235?” sofort das Ergebnis 97000000 aus. DeepSeek, Copilot, ChatGPT und Claude kommen dagegen auf das korrekte Ergebnis von 96.999.833. Auf die anschließende Frage nach dem Rechenweg liefert Gemini die durchgeführten Rechenschritte und kommt schließlich auch auf das korrekte Ergebnis.

Mittlerweile haben die genannten KI-Angebote das Problem oberflächlich betrachtet aber gut im Griff. Mehr dazu unten unter Verbesserungsansätze und Lösungen.

Sonderfall Textlänge zählen

Noch nicht im Griff haben die generativen KIs dagegen das Zählen von Zeichen in einem Text. Auch eine simple Anforderung wie Schreibe eine Zusammenfassung mit 160 bis 180 Zeichen, ist in den meisten Fällen (viel) zu lang oder zu kurz.

Claude rechnet faslch — Abbildung 1: Claude ermittelt für den Beispielsatz 101 Anschläge, immerhin nahe an den korrekten 100. Nach den Details der Zählung gefragt, korrigiert sich die GenKI auf weiterhin falsche 102 Anschläge. Der überzeugend aufgezeigte Lösungsweg mit Zwischenschritten erweckt dabei den Eindruck, dass die KI richtig liegt.

Die Modelle können Antworten aber auch mit einem detaillierten, jedoch fehlerhaften Rechenweg untermauern. Ohne Nachzählen ist der Fehler für Menschen nicht sofort ersichtlich. Das wird besonders deutlich, wenn man die Zeichen eines Textes zählen lässt. Der Satz
Dieser Text ohne Zahlen enthält einige Wörter, viele Buchstaben, Leerzeichen und wenig Satzzeichen!
ist exakt 100 Anschläge lang. ChatGPT kommt auf 114 Anschläge, Claude und Copilot zählen 101 Anschläge, Gemini ermittelt 90 Anschläge und DeepSeek errechnet gar nur 80 Anschläge (alle Tests am 4. Juni 2025).

ChatGPT zählt falsch — Abbildung 2: Der Satz ist 81 Anschläge lang, ChatGPT übernimmt aber erst einmal die falsche Behauptung und zählt 89. Der korrekt formulierte Satz mit dem korrekten Wert führt im Anschluss dann zu falschen 88 Anschlägen als Ergebnis.

Der Grund, warum die ermittelte Zeichenanzahl oft nicht stimmt, sind wieder die Token, mit denen die KIs intern arbeiten. Das sind Wort- oder Wortteilstücke, die nicht direkt den sichtbaren Zeichen entsprechen. Ein Token kann ein bis mehrere Zeichen lang sein. Deshalb wird eine Angabe wie 160 Zeichen häufig nur geschätzt. Hinzu kommen Sonderzeichen, Emojis und Umlaute, die je nach Codierung unterschiedlich interpretiert werden können. Auch Leerzeichen und Zeilenumbrüche werden je nach Umgebung unterschiedlich gezählt. In Kombination mit dem Umstand, dass eine KI oft gleichzeitig semantische, stilistische und technische Anforderungen erfüllen soll, entstehen so leicht Abweichungen bei der Zeichenzahl.

Verbesserungsansätze und Lösungen

Trotz dieser grundlegenden Einschränkungen arbeiten Forscher und Entwickler kontinuierlich daran, die mathematischen Fähigkeiten generativer KI zu verbessern. Verschiedene Ansätze zeigen vielversprechende Ergebnisse, auch wenn sie die grundlegenden Limitierungen nicht vollständig überwinden können. Lösungsansätze sind:

Spezialisiertes Training: Einige Modelle werden beispielsweise gezielt mit mathematischen Aufgaben trainiert, um ihre Rechenfähigkeiten zu verbessern und typische Fehler zu reduzieren. So lernen Sie, bestimmte Arten von Berechnungen zuverlässiger durchzuführen, auch wenn ihre grundlegende Architektur nicht für mathematische Operationen optimiert ist.
Tool-Integration: Moderne KI-Systeme können externe Rechenwerkzeuge einbinden, die präzise Berechnungen durchführen, während sich die KI selbst auf die Interpretation und Kommunikation konzentriert.
Chain-of-Thought-Prompting: Durch schrittweises Denken sind bessere Ergebnisse möglich. Wenn die Modelle angewiesen werden, Berechnungen Schritt für Schritt durchzuführen und zu erklären, reduziert sich die Fehlerrate oft deutlich.
Selbstüberprüfung: Manche Systeme sind darauf trainiert, ihre eigenen Berechnungen zu überprüfen und mögliche Fehler zu erkennen, bevor sie eine endgültige Antwort geben.

Spezialisierte Algorithmen vs. generalisierte Modelle

Ein fundamentaler Unterschied zwischen generativen KI-Systemen und spezialisierten mathematischen KI-Anwendungen liegt in ihrer Herangehensweise an Berechnungen. Generative KI versucht, mathematische Operationen durch Mustererkennung in natürlicher Sprache zu „verstehen”, während spezialisierte mathematische Systeme mit präzisen, deterministischen Algorithmen arbeiten. Diese algorithmischen Systeme folgen klar definierten mathematischen Regeln und Verfahren, die explizit programmiert wurden. Sie operieren nicht auf Basis von Wahrscheinlichkeiten, sondern auf Basis mathematischer Gewissheit. Dadurch können sie auch mit sehr großen Zahlen, komplexen Gleichungssystemen oder mehrdimensionalen Optimierungsproblemen umgehen, an denen selbst die fortschrittlichsten generativen KI-Modelle scheitern würden. Diese Spezialisierung erklärt beispielsweise, warum ein Computeralgebrasystem wie Mathematica problemlos mit hundertstelligen Zahlen rechnen kann, während ein nicht optimiertes LLM bereits bei zweistelligen Multiplikationen ins Straucheln geraten kann.

Einstufung der Rechenfähigkeiten verschiedener KI-Systeme

Die Rechenfähigkeiten von KI-Systemen variieren je nach Architektur und Zweck erheblich:

Generative KI / Large Language Models (LLMs)

Rechenfähigkeit: Niedrig bis mittel.
Stärken: Einfache Berechnungen, Erklärung mathematischer Konzepte, Aufstellen von Gleichungen.
Schwächen: Komplexe Berechnungen, große Zahlen, mehrstufige Operationen.
Zuverlässigkeit: Gering bei präzisen Berechnungen, Tendenz zu mathematischen Halluzinationen.
Beispiele: ChatGPT, Copilot, Claude, Gemini, DeepSeek

Spezialisierte mathematische KI-Systeme

Rechenfähigkeit: Sehr hoch.
Stärken: Präzise Berechnungen, symbolische Algebra, komplexe mathematische Operationen.
Schwächen: Weniger flexibel bei der Interpretation natürlichsprachlicher Probleme.
Zuverlässigkeit: Sehr hoch innerhalb ihres Spezialgebiets.
Beispiele: Mathematica, MATLAB, Maple, Theorem-Beweiser wie Rocq.

Hybride Systeme

Rechenfähigkeit: Mittel bis hoch.
Stärken: Kombination aus natürlichsprachlichem Verständnis und präzisen Berechnungen.
Schwächen: Komplexität der Integration, potenzielle Fehler bei der Problemübersetzung.
Zuverlässigkeit: Höher als reine LLMs, aber abhängig von der Qualität der Integration.
Beispiele: GPT-4 mit Code Interpreter, LLMs mit Tool-Integration.

Traditionelle regelbasierte KI

Rechenfähigkeit: Hoch für spezifische Aufgaben.
Stärken: Präzise Berechnungen innerhalb definierter Parameter.
Schwächen: Begrenzte Flexibilität, schwierige Anpassung an neue Probleme.
Zuverlässigkeit: Hoch innerhalb des definierten Regelwerks.
Beispiele: Expertensysteme für mathematische Berechnungen.

Neurosymbolische Ansätze

Rechenfähigkeit: Potenziell hoch.
Stärken: Verbindung von Mustererkennung mit logischem Schlussfolgern.
Schwächen: Noch in der Entwicklung, nicht weit verbreitet.
Zuverlässigkeit: Vielversprechend, aber noch nicht umfassend erprobt.
Beispiele: Experimentelle Systeme, die neuronale Netze mit symbolischer Logik kombinieren.

Fazit

Generative KI-Systeme sind beeindruckende Sprachmodelle mit vielfältigen Fähigkeiten. Sie sind jedoch keine Taschenrechner oder mathematischen Spezialwerkzeuge. Ihre Stärke liegt in der Verarbeitung und Erzeugung natürlicher Sprache, nicht in der präzisen Durchführung mathematischer Operationen.

Für kritische mathematische Anwendungen sollten weiterhin spezialisierte Systeme oder zumindest hybride Ansätze mit entsprechender Validierung verwendet werden. Generative KI hat hingegen ihre Stärken in der Erklärung und Kontextualisierung mathematischer Konzepte.

Während die Technologie weiter voranschreitet, werden wir wahrscheinlich kontinuierliche Verbesserungen in den mathematischen Fähigkeiten generativer KI erleben. Neue Architekturen, Trainingsmethoden und Integrationen mit spezialisierten Tools könnten die aktuellen Limitierungen teilweise überwinden. Bis dahin bleibt es jedoch wichtig, die Grenzen dieser Systeme zu verstehen und für die jeweilige Aufgabe das richtige Werkzeug zu wählen.