Getty Images

Was sind Foundation Models und wie funktionieren die Modelle?

Foundation Models sind groß angelegte, anpassungsfähige KI-Modelle. Sie sind vielversprechend, bergen aber auch Risiken. Welche das sind, erfahren sie hier.

Foundation Models, zu Deutsch Grundmodelle oder Basismodelle, bilden die Grundlage für die Zukunft generativer KI in Unternehmen.

Large Language Models (LLM) fallen in eine Kategorie, die als Foundation Models bezeichnet wird. Sprachmodelle nehmen Spracheingaben auf und erzeugen synthetisierte Ausgaben. Foundation Models arbeiten mit mehreren Datentypen. Sie sind multimodal, das heißt sie funktionieren auch in anderen Modi als Sprache.

Dies ermöglicht es Unternehmen, neue Verbindungen zwischen Datentypen herzustellen und das Spektrum der Aufgaben zu erweitern, für die KI eingesetzt werden kann. Als Ausgangspunkt kann ein Unternehmen Foundation Model verwenden, um benutzerdefinierte generative KI-Modelle zu erstellen, und zwar mit einem Tool wie LangChain, das über Funktionen verfügt, die auf den jeweiligen Anwendungsfall zugeschnitten sind.

Die GPT-n-Klasse (Generative Pre-Trained Transformer) von LLMs ist hierfür ein Paradebeispiel. Die Veröffentlichung leistungsstarker LLMs wie GPT-4 von OpenAI hat die Diskussion über künstliche allgemeine Intelligenz beflügelt – im Grunde genommen besagt sie, dass KI alles kann. Seit ihrer Veröffentlichung wurden zahlreiche Anwendungen auf Basis von GPTs entwickelt.

GPT-4 und andere Grundmodelle werden auf einem breiten Korpus ungelabelter Daten trainiert und können an viele Aufgaben angepasst werden.

Was ist ein Foundation Model?

Foundation Models sind ein neues Paradigma in der Entwicklung von KI-Systemen. Bisher wurde KI auf aufgabenspezifische Daten trainiert, um eine begrenzte Anzahl von Funktionen auszuführen.

Ein Foundation Model ist ein groß angelegtes maschinelles Lernmodell, das auf einem breiten Datensatz trainiert wird und für eine Vielzahl von Anwendungen und nachgelagerten Aufgaben angepasst und verfeinert werden kann. Foundation Models sind für ihre Allgemeingültigkeit und Anpassungsfähigkeit bekannt.

GPT-4, Dall-E 2 und BERT – was für Bidirectional Encoder Representations from Transformers steht – sind allesamt Foundation Models. Der Begriff wurde von Wissenschaftlern des Stanford Center for Research on Foundation Models und des Stanford Institute for Human-Centered Artificial Intelligence (HAI) in einem 2021 erschienenen Artikel mit dem Titel On the Opportunities and Risks of Foundation Models geprägt.

Die Autoren des Papers erklärten: „Während viele der ikonischen Foundation Models zum Zeitpunkt der Abfassung des Papiers Sprachmodelle sind, ist der Begriff Sprachmodell für unseren Zweck einfach zu eng gefasst: Wie wir ihn beschreiben, geht der Umfang von Foundation Models weit über die Sprache hinaus.“

Der Name Foundation Model unterstreicht laut dem Paper die grundlegende Unvollständigkeit der Modelle. Sie bilden die Grundlage für spezifische Spin-off-Modelle, die darauf trainiert sind, eine engere, spezialisiertere Reihe von Aufgaben zu erfüllen. Die Autoren des Stanford HAI-Papiers erklärten sinngemäß: „Wir haben den Begriff ‚Foundation‘ auch gewählt, um die Bedeutung von architektonischer Stabilität, Sicherheit und Schutz zu betonen: Schlecht konstruierte Fundamente sind ein Garant für Katastrophen, wohingegen gut ausgeführte Fundamente ein zuverlässiges Fundament für zukünftige Anwendungen bilden.“

Wie werden Foundation Models eingesetzt?

Foundation Models dienen als Basis für spezifischere Anwendungen. Ein Unternehmen kann ein Foundation Model nehmen, es mit seinen eigenen Daten trainieren und es auf eine bestimmte Aufgabe oder eine Reihe von bereichsspezifischen Aufgaben abstimmen.

Mehrere Plattformen, darunter Amazon SageMaker, IBM Watsonx, Google Cloud Vertex AI und Microsoft Azure AI, bieten Unternehmen einen Service für die Erstellung, das Training und den Einsatz von KI-Modellen.

Eine Organisation kann beispielsweise eine dieser Plattformen nutzen, um ein Modell von Hugging Face zu übernehmen, das Modell mit ihren eigenen Daten zu trainieren und das Modell mithilfe von Prompt Engineering zu optimieren. Hugging Face ist ein Open-Source-Repository mit vielen LLMs, vergleichbar mit GitHub für KI. Es bietet Tools, mit denen Benutzer Modelle für maschinelles Lernen erstellen, trainieren und einsetzen können.

Wie funktionieren Foundation Models?

Foundation Models verwenden Vorhersagealgorithmen, um ein Muster zu lernen und das nächste Element in diesem Muster zu generieren. Die von Foundation Models verwendeten Algorithmen können variieren, darunter Transformer-Architekturen, Variationscodierer und Generative Adversarial Networks (GAN).

Ein auf Text angewandtes Foundation Modellernt gängige Muster in diesem Text und sagt das nächste Wort auf der Grundlage vorhandener Muster im Text und zusätzlicher Eingaben eines Benutzers voraus. Ein auf Video angewandtes Foundation Model lernt zugrunde liegende Muster in einer Datenbank von Videos und generiert neue Videos, die diesen Mustern entsprechen. Foundation Models sind generative KI-Programme; sie lernen aus vorhandenen Inhaltsbeständen, um neue Inhalte zu produzieren.

Die Funktionalität von Foundation Models basiert auf drei grundlegenden Schritten:

  1. Vortraining. Das Foundation Model lernt Muster aus einem großen Datensatz.
  2. Feinabstimmung. Das Modell wird für bestimmte Aufgaben mit kleineren, domänenspezifischen Datensätzen feinabgestimmt.
  3. Implementierung. Das Modell ist bereit, neue Daten als Eingabe zu empfangen und Vorhersagen über diese Daten auf der Grundlage von Mustern zu generieren, die im Vortraining und in der Feinabstimmung gelernt wurden.

Das Training und der Betrieb von Foundation Models sind teuer. Die den Foundation Models zugrunde liegende Rechenhardware besteht in der Regel aus mehreren parallelen GPUs.

Bedeutung von Foundation Models

Foundation Models sind aufgrund ihrer Anpassungsfähigkeit wichtig. Anstatt spezialisierte Modelle von Grund auf für eine begrenzte Anzahl von Aufgaben zu trainieren, können Ingenieure vortrainierte Foundation Models verwenden, um neue Anwendungen für ihren spezifischen Anwendungsfall zu entwickeln.

Trotz der Energie- und Rechenkosten für die Entwicklung, das Training und die Wartung von Foundation Models sind sie aufgrund ihrer Fähigkeit, vorhersehbar zu skalieren und die Grundlage für nachgelagerte KI-Anwendungen zu schaffen, für einige Organisationen mit den erforderlichen Ressourcen eine lohnende Investition.

Merkmale von Foundation Models

Zu den Hauptmerkmalen von Foundation Models gehören:

  • Skalierbarkeit. Um Foundation Models leistungsstark zu machen, gibt es drei Faktoren, die die Skalierbarkeit von Foundation Models ermöglichen:
  1. Hardwareverbesserungen. GPUs, die Foundation Models antreiben, haben den Durchsatz und den Speicherplatz erheblich erhöht.
  2. Transformer-Modellarchitektur. Transformer sind die Architektur für maschinelles Lernen, die vielen Sprachmodellen wie BERT und GPT-4 zugrunde liegt. Transformer sind nicht die einzige Modellarchitektur, die in Foundation Models vorhanden ist, aber sie sind eine gängige Option.
  3. Datenverfügbarkeit. Es gibt viele Daten, mit denen diese Modelle trainieren und von denen sie lernen können. Foundation Models benötigen große Mengen unstrukturierter Daten zum Trainieren.
  • Traditionelles Training. Foundation Models verwenden traditionelle Trainingsmethoden für maschinelles Lernen, wie zum Beispiel eine Kombination aus unüberwachtem und überwachtem Lernen oder bestärkendes Lernen durch menschliches Feedback.
  • Transferlernen. Durch die Nutzung von Wissen, das aus einer Aufgabe gelernt wurde, und dessen Anwendung auf eine andere, nutzen die Modelle Transferlernen bei Ersatzaufgaben und nehmen dann eine Feinabstimmung auf eine bestimmte Aufgabe vor. Vortraining ist die Art von Transferlernen, die in der GPT-n-Reihe von Sprachmodellen verwendet wird.
  • Emergenz. Das Modellverhalten wird induziert und nicht explizit konstruiert. Das Modell erzeugt Ergebnisse, die nicht direkt mit einem bestimmten Mechanismus im Modell zusammenhängen.
  • Homogenisierung. Homogenisierung bedeutet, dass eine Vielzahl von Anwendungen durch einen einzigen generischen Lernalgorithmus unterstützt werden können. In vielen Bereichen wird dieselbe zugrunde liegende Methode verwendet. In der HAI-Studie des Stanford Institute heißt es, dass fast alle modernen NLP-Modelle (Natural Language Processing) von nur wenigen Foundation Models abgeleitet sind.

Beispiele für Anwendungen von Foundation Models

Foundation Models werden für die Erstellung von Anwendungen optimiert. Nachfolgend finden Sie einige Beispiele für Foundation Models und die ihnen zugrunde liegenden Anwendungen.

  • GPT-n-Serie. GPT-3 und GPT-4 sind in der kurzen Zeit, in der es sie gibt, zur Grundlage für viele Anwendungen geworden, wobei ChatGPT die bekannteste ist. In einem Paper (PDF) von Forschern von OpenAI, OpenResearch und der University of Pennsylvania wurde postuliert, dass GPTs Eigenschaften von Allzwecktechnologien aufweisen. Allzwecktechnologien wie die Dampfmaschine, die Druckmaschine und GPTs zeichnen sich durch eine weit verbreitete Anwendung, kontinuierliche Verbesserung und die Generierung ergänzender Innovationen aus. Diese ergänzenden Technologien können mit Allzwecktechnologien wie GPTs zusammenarbeiten, sie unterstützen oder auf ihnen aufbauen. Die Ergebnisse des Papers zeigten, dass mit dem Zugang zu einem LLM etwa 15 Prozent aller Arbeitsaufgaben in den USA bei gleicher Qualität deutlich schneller erledigt werden können.
  • Florence. Ein weiteres Beispiel für ein Foundation Model ist Project Florence von Microsoft, das zur Bereitstellung produktionsreifer Computer-Vision-Dienste in Azure AI Vision verwendet wird. Die Anwendung verwendet das Modell, um Bilder zu analysieren, Text zu lesen und Gesichter mit vorgefertigten Bildmarkierungen zu erkennen.
  • Schwedisches LLM. Schweden versucht, ein grundlegendes LLM für alle wichtigen Sprachen in der nordischen Region zu erstellen: Dänisch, Schwedisch, Isländisch, Norwegisch und Färöisch. Es soll hauptsächlich vom öffentlichen Sektor genutzt werden. Das schwedische Konsortium, das das Projekt leitet, hat Zugang zum Supercomputer Berzelius sowie Hardware- und Software-Unterstützung von Nvidia erhalten. Das Modell befindet sich noch in der Entwicklung, aber frühe Versionen sind auf Hugging Face verfügbar.
  • Claude. Die Claude-Serie von Anthropic mit ihren Foundation Models – zu denen Haiku, Sonnet und Opus gehören – zeigt Kompetenz in der Codierung und kann für eine Vielzahl von Aufgaben optimiert werden. Anthropic hat Claude als konstitutionelle KI entwickelt, was bedeutet, dass Sicherheit und Zuverlässigkeit bei der Entwicklung des Modells oberste Priorität haben.

Chancen und Herausforderungen von Foundation Models

Foundation Models sind multimodal, da sie über mehrere Fähigkeiten verfügen, darunter Sprache, Audio und Bild.

Aufgrund ihrer allgemeinen Anpassungsfähigkeit können Foundation Models zahlreiche Möglichkeiten und Anwendungsfälle in einer Vielzahl unterschiedlicher Branchen bieten, darunter die folgenden:

  • Gesundheitswesen. In dieser Branche sind Foundation Models vielversprechend für generative Aufgaben wie die Arzneimittelforschung. Ein IBM Foundation Model – Controlled Generation of Molecules, besser bekannt als CogMol – konnte mithilfe einer gemeinsamen Architektur, die als Variational Autoencoder bezeichnet wird, eine Reihe neuer COVID-19-Virostatika generieren. MoLFormer-XL von IBM ist ein weiteres Foundation Model, das derzeit von Moderna zur Entwicklung von Boten-RNA-Medikamenten eingesetzt wird.
  • Recht. Im Rechtswesen werden generative Aufgaben verwendet, bei denen Foundation Models unterstützen können. Derzeit fehlt ihnen jedoch die Fähigkeit, wahrheitsgemäße Dokumente zu erstellen. Wenn sie so weiterentwickelt werden können, dass sie die Herkunft anzeigen und die Faktizität garantieren, wären sie im juristischen Bereich von Nutzen.
  • Bildung. Bildung ist ein komplexer Bereich, der eine nuancierte menschliche Interaktion erfordert, um die Ziele und Lernstile der Schüler zu verstehen. Es gibt viele einzelne Datenströme im Bildungsbereich, die zusammen zu begrenzt sind, um Foundation Models zu trainieren. Dennoch können Foundation Models allgemein für generative Aufgaben, wie zum Beispiel die Problemgenerierung, anwendbar sein.

Trotz ihres breiten Potenzials haben Foundation Models auch Nachteile, darunter die folgenden:

  • Voreingenommenheit. Da Foundation Models nur auf einigen wenigen Kerntechnologien basieren, können sich inhärente Voreingenommenheiten aufgrund sozialer oder moralischer Probleme in diesen wenigen Modellen auf jede KI-Anwendung ausbreiten.
  • Systemlimitierung. Computersysteme sind ein entscheidender Engpass bei der Skalierung der Modellgröße und Datenmenge. Das Training von Foundation Models kann eine unerschwinglich große Menge an Speicherplatz erfordern. Das Training ist teuer und rechenintensiv.
  • Datenverfügbarkeit. Foundation Models benötigen Zugriff auf große Mengen an Trainingsdaten, um zu funktionieren. Wenn diese Daten abgeschnitten oder eingeschränkt werden, fehlt ihnen der Treibstoff, um zu funktionieren.
  • Sicherheit. Foundation Models stellen einen einzelnen Fehlerpunkt dar, was sie zu einem lohnenden Ziel für Cyberangreifer macht.
  • Auswirkungen auf die Umwelt. Das Training und der Betrieb großer Foundation Models wie GPT-4 haben einen hohen ökologischen Tribut.
  • Entstehung. Die Ergebnisse von Foundation Models lassen sich möglicherweise nur schwer auf einen bestimmten Schritt im Erstellungsprozess zurückführen.

Weitere wichtige KI-Forschungsarbeiten

On the Opportunities and Risks of Foundation Models ist nur eine der einflussreichen Forschungsarbeiten über Foundation Models. KI-Forschung wird in großem Umfang veröffentlicht. Hier sind einige weitere grundlegende KI-Forschungsarbeiten, die man kennen sollte:

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)