GamePixel - stock.adobe.com
Die Rolle von KI-Parametern für die Leistung von KI-Modellen
Sehr viele Parameter steigern potenziell die Fähigkeiten einer KI, aber nicht automatisch deren Qualität. Wie sich die Leistung von KI-Modellen über die Parameter bewerten lässt.
Die jüngsten Fortschritte im KI-Bereich wurden durch große Sprachmodelle (Large Language Model, LLM) mit Milliarden oder sogar Billionen von Parametern vorangetrieben. KI-Parameter – die Variablen, die zum Trainieren und Optimieren von LLMs und anderen Machine-Learning-Modellen verwendet werden – haben eine entscheidende Rolle bei der Entwicklung der generativen KI gespielt. Mehr Parameter haben es neuen generativen KI-Anwendungen wie ChatGPT ermöglicht, menschenähnliche Inhalte zu produzieren – eine Leistung, die noch vor wenigen Jahren undenkbar war.
Es erscheint sinnvoll, die Leistungsfähigkeit von KI-Modellen mit der Anzahl der Parameter zu korrelieren, ähnlich wie wir es bei der PS-Leistung von Autos tun. In einigen Fällen sind jedoch mehr Parameter nicht unbedingt besser, da sie zusätzlichen Aufwand verursachen oder neue Probleme wie Überanpassung (Overfitting) hervorrufen können.
Darüber hinaus gibt es viele Möglichkeiten, die Anzahl der Parameter in KI-Modellen zu erhöhen – und diese führen nicht immer zu den gleichen Verbesserungen. Beispielsweise wurden die Switch Transformers (PDF) von Google auf Billionen von Parametern skaliert, um die Grenzen der Parameteranzahl zu testen, aber sie waren nicht unbedingt besser als einige der kleineren Modelle des Unternehmens für gängige Anwendungsfälle. Daher ist es wichtig, bei der Bewertung verschiedener KI-Modelle auch andere Metriken zu berücksichtigen.
„Tatsächlich ist noch nicht klar, wie die Leistung dieser massiv skalierten großen Sprachmodelle quantifiziert werden kann“, sagt John Blankenbaker, Principal Data Scientist bei SSA & Company, einer globalen Unternehmensberatung. Durch die Vergrößerung der Modelle scheinen sie laut Blankenbaker ihre Trainingsergebnisse genauer reproduzieren zu können, sodass sich einige Leistungskennzahlen verbessern werden. Die Korrelation zwischen Parametern und Intelligenz werde jedoch durch viel Wunschdenken getrübt.
„Diese Modelle sind so abgestimmt, dass sie so klingen, als wüssten sie, wovon sie sprechen, ohne tatsächlich etwas über die Welt zu wissen. Ich glaube nicht, dass irgendwelche ‚emergenten‘ Eigenschaften wie Bewusstsein aufgetreten sind oder wahrscheinlich auftreten werden, obwohl es offenbar viele Leute gibt, die sagen: ‚Wartet nur, bis wir zehnmal so viele Parameter haben.‘”
Was die Sache für die meisten Unternehmen noch komplizierter macht, ist die kontraintuitive Natur des Begriffs Parameter selbst. Ein Parameter ist kein Wort, kein Merkmal und keine Dateneinheit. Er ist eher wie ein Knopf in einer riesigen Rube-Goldberg-Maschine, der lose mit dem Problem verbunden ist, das Sie zu lösen versuchen. Darüber hinaus unterscheidet sich das Konzept der Parameter, wie es in LLMs verstanden wird, von den Parametern, die in Regressionsmodellen verwendet werden.
Sanjay Srivastava, ehemaliger Chief Digital Strategist bei Genpact, Technologie-Entrepreneur und -berater, sagt, dass der Aufstieg der LLMs zumindest die Erwartungen neu definiert habe. „Noch vor ein paar Jahren hielten wir ein boolesches Parametermodell für groß. Heute hat unser kleinstes [LLM]-Modell siebeneinhalb Milliarden Parameter.“
Was ist ein KI-Parameter?
Eine Möglichkeit, KI-Parameter zu verstehen, besteht darin, sich eine Cartoon-Darstellung eines Deep-Learning-Neuralnetzwerks mit vielen miteinander verbundenen Reglern vorzustellen. Wenn Sie dem neuronalen Netz eine Eingabe (zum Beispiel einen Satz oder ein Bild) präsentieren, steuern diese Regler eine enorme Anzahl sehr einfacher Berechnungen, die die Eingabe über eine große Anzahl von Zwischenschritten, sogenannten Schichten, in eine Ausgabe umwandeln. Wenn Sie ein solches Netzwerk trainieren möchten, geben Sie ihm wiederholt eine Eingabe und die gewünschte Ausgabe und verwenden die Differenz zwischen der tatsächlichen und der gewünschten Ausgabe als Anhaltspunkt dafür, wie Sie die Regler einstellen müssen, damit das Netzwerk in Zukunft bei diesem Eingabe-Ausgabe-Paar bessere Ergebnisse erzielt.
![]()
„Noch vor ein paar Jahren hielten wir ein boolesches Parametermodell für groß. Heute hat unser kleinstes [LLM]-Modell siebeneinhalb Milliarden Parameter.“
Sanjay Srivastava, Entrepreneur und Technologieberater
Aus historischen Gründen wird der Wert jedes Reglers als Parameter bezeichnet. Blankenbaker weist darauf hin, dass dies nicht mit einem Parameter in einer linearen Regression vergleichbar ist, bei der der Koeffizient vor den Arbeitsstunden als voll ausgelastete Arbeitsrate interpretiert werden kann. Vielmehr ist der Wert eines Parameters in einem LLM das Maß dafür, ob er seine Eingabe in einem winzigen Teil einer riesigen Berechnung verstärkt oder dämpft. Für sich genommen gibt uns jeder Parameter keinen Hinweis darauf, was das Netzwerk tut oder wie es funktioniert.
Christine Livingston, Geschäftsführerin und Leiterin der Bereiche KI und IoT bei Protiviti, einer Beratungsfirma für digitale Transformation, findet es hilfreich, Parameter als Gewichte im Modell zu betrachten, die sich anpassen lassen und Flexibilität bieten. Die Modellgröße ist nicht nur die Anzahl der Parameter, sondern auch die Größe des Trainingsdatensatzes. Darüber hinaus ist es wichtig zu beachten, dass mehr Parameter zu überangepassten Modellen führen können, die dann bei brandneuen Informationen möglicherweise nicht so gut funktionieren.
Adnan Masood, Chief AI Architect bei UST, verweist darauf, dass Parameter die Präzision, Genauigkeit und Datenmanagementanforderungen des Modells beeinflussen, da sie auf den Daten basieren, die zum Trainieren des Modells verwendet werden. Im Falle eines Bedarfsprognosemodells unterstützen Parameter beispielsweise dabei, die Bedeutung historischer Verkaufsdaten, saisonaler Schwankungen, Wirtschaftsindikatoren, Markttrends, Werbeaktivitäten, Preisstrategien, Produktlebenszyklusphasen und externer Faktoren zu gewichten.
Bei LLMs ist es jedoch aufgrund ihrer schieren Größe praktisch unmöglich, sich so sehr um bestimmte Parameter zu kümmern. Stattdessen betrachten Entwickler das Modell ganzheitlich unter Berücksichtigung von Faktoren wie dem Zweck des Modells, Leistungskennzahlen, beabsichtigten Anwendungsfällen, potenziellen Einschränkungen, Verzerrungen und ethischen Überlegungen. Das Verständnis der zugrunde liegenden Datensammlung, der Vorverarbeitungs- und Bereinigungsschritte, der Datensatzmerkmale, der Datenquelle, möglicher Verzerrungen, der Lizenzierung und der beabsichtigten Anwendungsfälle für die Daten trägt dazu bei, das Modell transparenter zu machen.
Bedeutung von Parametern für Entwickler und Anwender
Was bedeutet es für Anwender und Entwickler, wenn gesagt wird, dass ein KI-Modell Milliarden von Parametern hat, während ein anderes Billionen hat? Laut Masood bedeuten mehr Parameter im Allgemeinen, dass das Modell eine höhere Fähigkeit hat, aus den Daten zu lernen, aber es bedeutet auch eine erhöhte Komplexität, Trainingszeit und Rechenressourcen.
![]()
„Es gibt verschiedene bessere Alternativen zum Vergleich der Vorzüge verschiedener KI-Modelle, die sich auf einen umfassenden und ganzheitlichen Bewertungsansatz konzentrieren. Kein seriöser Wissenschaftler oder Fachmann verwendet die reine Anzahl der Parameter, um ein Modell zu beurteilen.“
Adnan Masood, UST
Größere Modelle, das heißt solche mit mehr Parametern, können in einigen Fällen aufgrund ihrer erhöhten Fähigkeit, aus Daten zu lernen, genauer sein. Allerdings sind sie in der Regel schwieriger zu programmieren, zu speichern, zu optimieren und auszuführen und erfordern mehr Rechenleistung, Speicherplatz und Fachwissen. Die Leistung mag für Nutzer besser sein, aber die Reaktionszeiten können langsamer und die Kosten für Inferenz und Training höher sein. Für Entwickler kann die Bereitstellung eines größeren Modells mehr Ressourcen für das Training erfordern. Für Tester bedeutet dies Black-Box-Modelle, die sich nicht ohne Weiteres für eine erklärbare, transparente und überprüfbare KI eignen.
Tatsächlich stellt Masood fest, dass kleinere Modelle aufgrund ihrer besseren Generalisierbarkeit, schnelleren Trainings- und Inferenzzeiten, leichteren Interpretierbarkeit und geringeren Datenanforderungen oft für domänenspezifische Aufgaben (zum Beispiel Finanzen, Einzelhandel, Gesundheitswesen und Bildverarbeitung) bevorzugt werden. Diese Modelle werden speziell auf domänenspezifische Datensätze trainiert, verringern das Risiko der Überanpassung und können mit begrenzten Datenmengen effektiv trainiert werden.
Für die Edge-basierte Inferenz eignen sich diese Modelle gut für zeitkritische oder ressourcenbeschränkte Umgebungen. Sie lassen sich leichter anpassen, sodass Entwickler sie genau auf die besonderen Anforderungen eines bestimmten Bereichs abstimmen können, was zu einer guten Leistung, Erklärbarkeit und Transparenz in Entscheidungsprozessen führt.
Blankenbaker stimmt zu, dass große Modelle wahrscheinlich mehr Kosten verursachen, aber die meisten Benutzer werden über eine API darauf zugreifen, sodass die Kosten darin enthalten sind. Für Benutzer, die Modelle am Edge ausführen müssen, beispielsweise auf einem dedizierten Gerät, scheint es Möglichkeiten zu geben, Modelle zu reduzieren, indem weniger wichtige Parameter entfernt werden, ohne dass die Leistung stark beeinträchtigt wird. Neural Magic ist zum Beispiel ein Unternehmen, das diesen Ansatz verfolgt.
Herausforderungen bei der Feinabstimmung von Parametern
Eine der größten Herausforderungen bei den größten Modellen besteht darin, dass sie für bestimmte Domänen abgestimmt werden müssen. Nach Angaben von Livingston weisen große Modelle keine Domänenspezifität in ihren Antworten auf und sie sind weniger darauf ausgerichtet, eine Problemdomäne oder Branche tiefgreifend zu verstehen. Sie können auch unter Überanpassung leiden, was bedeutet, dass sie während der Trainingszyklen sehr gute Testergebnisse erzielen, aber wenn sie mit neuen Informationen konfrontiert werden, möglicherweise keine guten Ergebnisse erzielen.
Masood sagt, dies habe zu Trainings-Babysittern geführt, die nach unbeabsichtigten Überraschungen wie Jailbreak, domänenfremden Fragen und Antworten, Verteilungsverschiebungen und dem Gleichgewicht zwischen Feinabstimmung und kontextbezogenen Prompts für die Anwendungsfälle suchen.
Bessere Metriken
Es ist verlockend, standardmäßig die Anzahl der Merkmale, ein gängiges Synonym für Parameter, als Maß für die Leistung eines KI-Modells heranzuziehen. Für die meisten Anwendungsfälle in Unternehmen ist dies jedoch nicht praktikabel.
„Es gibt verschiedene bessere Alternativen zum Vergleich der Vorzüge verschiedener KI-Modelle, die sich auf einen umfassenden und ganzheitlichen Bewertungsansatz konzentrieren“, erklärt Masood. „Kein seriöser Wissenschaftler oder Fachmann verwendet die reine Anzahl der Parameter, um ein Modell zu beurteilen.“
Eine Alternative ist Holistic Evaluation of Language Models (HELM) des Center for Research on Foundation Models (CRFM) am Stanford Institute for Human-Centered Artificial Intelligence (HAI), das mehrere Faktoren wie Genauigkeit, Kalibrierung, Robustheit, Fairness, Voreingenommenheit, Toxizität und Effizienz berücksichtigt. Zusätzlich zu HELM verwenden Fachleute aus der Industrie Benchmarks wie Pile, GLUE, SuperGLUE, MMLU, LAMBADA und Big-Bench Benchmark sowie Sentence-Embedding-Methoden wie SBERT und USE/GOOG, um LLMs für bestimmte Aufgaben zu bewerten.
„Diese Benchmarks sind unerlässlich, da sie uns helfen, die Leistung von KI-Modellen besser zu verstehen, und dabei nicht nur die Genauigkeit, sondern auch entscheidende Faktoren wie Fairness, Geschwindigkeit, Kosten, Transparenz und ethische Überlegungen berücksichtigen“, erläutert Masood.
Noch besser ist es, wenn Unternehmen eine Kombination verschiedener Bewertungsmethoden nutzen, um fundiertere Entscheidungen bei der Auswahl von KI-Modellen für bestimmte Aufgaben zu treffen und so das richtige Gleichgewicht zwischen Leistung, Ressourcenanforderungen und ethischen Aspekten zu finden.
Livingston empfiehlt Unternehmen, Modelle für den spezifischen Anwendungsfall, den sie ermöglichen möchten, anhand kleiner Prototypen zu bewerten. „Möglicherweise werden Sie einige überraschende Ergebnisse sehen“, sagt sie.
Die Modellarchitektur ist auch ein wichtiger Faktor für die Verarbeitung sensibler Daten und den Verbrauch von Trainingsdaten. Die Möglichkeit, das Modell an Ihren spezifischen Anwendungsfall anzupassen oder zu optimieren, ist ebenfalls ein wichtiger Aspekt.
Parameter versus Wörter versus Token
Die Bedeutung von Parametern, Tokens und Wörtern wird manchmal verwechselt, doch die Begriffe haben unterschiedliche Bedeutungen. Die Aussage, dass GPT-3 mit 175 Milliarden Parametern trainiert wurde, bedeutet nicht, dass es für die Unterstützung von 175 Milliarden Wörtern trainiert wurde. Vielmehr ist ein Modellparameter ein Wert, der während des Trainingsprozesses gelernt wurde. Parameter werden aus Token gelernt, die aus der Anordnung der Wörter abgeleitet werden.
Aus praktischer Sicht, so Adnan Masood, ist ein Token Teil eines Wortes. Das typische Verhältnis von Wörtern zu Tokens beträgt 3 zu 4, das heißt 100 Tokens entsprechen etwa 75 Wörtern. Nun werden all diese Tokens zu Einbettungen (vektorisierte Versionen von Wörtern), auf denen das Modell trainiert wird.
Dieses Training liefert Parameter für Gewichte und Verzerrungen. Gewichte sind die Parameter, die die Bedeutung oder Stärke der Verbindungen zwischen den Eingabemerkmalen und den Ausgabevorhersagen in einem Modell bestimmen. Verzerrungen sind zusätzliche Offset-Parameter, mit denen das Modell die Ausgabevorhersagen um einen konstanten Wert nach oben oder unten verschieben kann.
„Wenn wir also von 175 Milliarden Parametern sprechen, beziehen wir uns auf diese Gewichte und Verzerrungen“, sagt Masood. Diese Verzerrungen werden zur gewichteten Summe der Eingaben an jedem Neuron addiert, bevor die Aktivierungsfunktion angewendet wird, um die Ergebnisse zu erhalten.
Zukünftige Trends
Drei wichtige Trends prägen unsere Sichtweise auf Parameter als Maßstab für die Leistung von KI.
Erstens haben KI-Entwickler erhebliche Fortschritte bei der Verbesserung der Leistung von KI-Modellen erzielt, ohne die Anzahl der Parameter erhöhen zu müssen. Eine Metaanalyse von 231 Modellen (PDF) zwischen 2012 und 2023 ergab, dass sich die für nachfolgende Versionen von LLMs erforderliche Rechenleistung im Durchschnitt alle acht Monate halbierte. Dies deutet auf ein weitaus schnelleres Innovationstempo hin als das Mooresche Gesetz, das bekanntlich besagt, dass sich die Anzahl der Transistoren in einem Chip alle 18 Monate verdoppelt.
Zweitens beginnen Forscher, neue Ansätze für neuronale Netze zu erforschen, die im Verhältnis zur Parameteranzahl noch beeindruckendere Qualitätsverbesserungen erzielen können. Jüngste Forschungsergebnisse deuten beispielsweise darauf hin, dass Kolmogorov-Arnold-Netzwerke (KANs) eine vielversprechende Alternative zu den heute üblichen mehrschichtigen Perzeptron-Ansätzen sein können. Die Forscher fanden heraus, dass bei physikbezogenen Problemen ein KAN-Ansatz eine ähnliche Leistung mit 10.000-mal weniger Parametern erzielen kann. Allerdings sind KANs auch viel schwieriger zu trainieren, da sie CPUs erfordern, die seriell laufen, anstatt GPUs, die parallel zu Multi-Layer-Perzeptronen laufen.
Drittens beginnen Forscher und Anbieter mit der Entwicklung agentischer KI-Frameworks, die Aufgaben über mehrere domänenspezifische KI-Agenten hinweg verarbeiten. Ein gutes Beispiel hierfür ist das neue Agentforce-Ökosystem von Salesforce. In einer solchen Architektur können LLMs, die für eine bestimmte Domäne oder Aufgabe trainiert wurden, allgemeine LLMs mit einer viel größeren Parameteranzahl übertreffen. Es ist noch unklar, wie die Parameteranzahl jedes Agenten oder deren Gesamtzahl über mehrere Interaktionen hinweg zu einem einzigen monolithischen LLM berechnet werden kann.