Umdenken bei KI: Small AI auf der Überholspur

Statt großer LLMs setzen Unternehmen zunehmend auf spezialisierte Small Language Models. Erfahren Sie in diesem Beitrag, wie SLMs Kosten senken und digitale Souveränität stärken.

von

Jan Wildeboer, Red Hat

Zuletzt aktualisiert: 30 Okt. 2025

Die Erwartungen an die neuesten Large Language Models (LLMs) waren immens, aber für viele ist die anfängliche Begeisterung inzwischen der Enttäuschung gewichen. Der Hype rund um LLMs ebbt ab und Small Language Models (SLMs) rücken immer stärker ins Blickfeld – aus gutem Grund. Sie bieten klare Vorteile, darunter Kosteneffizienz und Anpassbarkeit. Zudem können sie schneller produktionsnah und unternehmensspezifisch genutzt werden.

Unternehmen sollten vor jeder Einführung von künstlicher Intelligenz (KI) genau prüfen, welches Sprachmodell – ein LLM oder ein SLM – am besten zu den eigenen Anforderungen passt. Die Ziele des KI-Einsatzes bestimmen, ob ein generalistisches LLM oder ein spezialisiertes SLM optimal ist. Unternehmen sollten die Unterschiede beachten, damit ein erfolgreicher Einsatz gewährleistet ist.

LLMs sind universell ausgelegt und verfügen über Basiswissen, sodass sie nicht auf fachspezifische Antworten abzielen. Auch das Problem möglicher Halluzinationen ist schwer in den Griff zu bekommen. Hingegen ist ein SLM eine kleinere Version eines LLMs, das über mehr Fachwissen verfügt, schneller angepasst und effizienter ausgeführt werden kann.

SLMs werden in der Regel anhand kleinerer Datensätze trainiert, die auf bestimmte Branchen- oder Fachbereiche und Themen zugeschnitten sind. Ein Gesundheitsdienstleister könnte beispielsweise einen SLM-gestützten Chatbot verwenden, der auf medizinischen Datensätzen basiert. In einem solchen Fall muss der SLM-gestützte Chatbot nicht anhand generischen, universellen Wissens trainiert werden, da dies für den konkreten Use Case im Gesundheitswesen irrelevant ist.

Im Vergleich zu LLMs bietet die Nutzung kleinerer Modelle zahlreiche Vorteile. Sie unterstützen eine dynamische Anpassung und kontinuierliche Integration neuer Daten. Das heißt, mit ihnen sind auch Trainingsläufe deutlich schneller durchführbar. Kleine Modelle tragen auch zu einer erheblichen Kosteneinsparung bei, schließlich erfordern LLMs mit Milliarden von Parametern erhebliche Investitionen. Mit SLMs können große Datenmengen auch mit geringen Rechenressourcen ausgewertet werden. Small bedeutet dabei keineswegs klein oder wenig Funktionen, sondern vielmehr anforderungsspezifisch, schnell und austauschbar.

Nicht zuletzt verringert die Nutzung kleiner Modelle mit domänenspezifischen Daten auch die Abhängigkeit der Unternehmen von großen LLM-Anbietern, deren Lösungen vielfach eine Black Box hinsichtlich Algorithmen, Trainingsdaten oder Modellen sind. Damit trägt Small AI im Sinne eines Own your Stack und Own your Data zur digitalen Souveränität bei.

Von der Antwortverbesserung zum Aufruf externer Funktionen

Diese Vorteile führen dazu, dass künftig verstärkt kleine KI-Modelle für fachspezifische Aufgaben genutzt werden. Selbst große LLM-Anbieter stellen inzwischen zusätzlich kleinere Modelle bereit. Prinzipiell können auch LLMs, also die sogenannten Foundation Models, als Technologiebasis dienen und auf die konkreten Unternehmensanforderungen hin optimiert werden, wie einige Beispiele zeigen. RAG (Retrieval-Augmented Generation) bietet die Möglichkeit, die in einem LLM vorhandenen Daten durch externe Wissensquellen wie Daten-Repositories, Textsammlungen oder bestehende Dokumentationen zu ergänzen. Diese Ressourcen werden segmentiert, in einer Vektordatenbank indiziert und als Referenzmaterial genutzt, um genauere Antworten zu liefern. So wird auch die Gefahr von Halluzinationen verringert. Ein anderes Beispiel ist der offene Standard MCP (Model Context Protocol), eine standardisierte Schnittstelle für den Datenaustausch zwischen LLMs und externen Tools, Datenquellen oder Systemen. MCP hat aufgrund der Benutzerfreundlichkeit und der Vorteile für den Einsatz von KI schnell an Relevanz gewonnen. Während es bei einer RAG-Nutzung nur darum geht, die LLM-Antworten mit externen oder aktuellen Informationen zu ergänzen und zu verbessern, bietet der MCP-Ansatz vor allem auch die Möglichkeit, direkte Aktionen auszuführen. KI-Agenten können so mit APIs, Tools oder Datenbanken interagieren, um zum Beispiel Datensätze zu aktualisieren.

Open-Source-basiert zur vertrauenswürdigen KI

Bei jeder Nutzung eines KI-Modells stellt sich unweigerlich die Frage nach der Sicherheit und Unabhängigkeit, gerade in einer Zeit, in der die digitale Souveränität an Bedeutung gewinnt. Aber auch hier gibt es inzwischen viele Lösungen wie die Granite-Familie von Open-Source-lizensierten Modellen. Bei Granite handelt es sich um ein LLM, das von IBM für Unternehmensanwendungen entwickelt wurde. Die Modellfamilie deckt ein breites Spektrum an KI-Anwendungsfällen ab, von der Codegenerierung über die Verarbeitung natürlicher Sprache (NLP) bis hin zur Gewinnung von Erkenntnissen aus großen Datensätzen – alles unter einer Open-Source-Lizenz. Die Modelle verfügen über ein grundlegendes Wissen, das sich durch Finetuning weiter anpassen lässt, damit die Modelle bestimmte Aufgaben für nahezu alle Branchen ausführen können. Was die Granite-KI-Modelle von anderen Basismodellen unterscheidet, ist die Offenlegung der Trainingsdaten, was den Nutzenden mehr Transparenz bietet.

vLLM und llm-d als Bausteine moderner KI-Anwendungen

Der KI-Bereich ist derzeit von einer hohen Dynamik mit vielen neuen Angeboten und Leistungsmerkmalen geprägt. Zwei neue Entwicklungen aus der Open-Source-Welt sind dabei von besonderer Relevanz: vLLM und llm-d.

vLLM ist eine Library von Open Source Codes, die von der vLLM Community verwaltet werden. Das Modell unterstützt LLMs, Berechnungen effizienter durchzuführen. Konkret handelt es sich bei einem vLLM um einen Inferenzserver, der den Output generativer KI-Anwendungen durch eine bessere Nutzung des GPU-Speichers beschleunigt. Damit adressiert der Inferenzserver eine zentrale Herausforderung: GenAI-Modelle werden immer komplexer und in immer größerem Umfang produktiv eingesetzt, sodass die Inferenz zum Flaschenhals wird. Sie benötigt viele Hardwareressourcen, beeinträchtigt die Reaktionsfähigkeit und treibt die Kosten in die Höhe. Mit robusten Inferenzservern kann die für KI-Workloads erforderliche Hardware nun wesentlich effizienter genutzt werden.

„Welchen KI-Weg ein Unternehmen auch einschlägt, wichtig sind auf jeden Fall immer eine adäquate Architekturbasis und Infrastruktur. Zur Vermeidung eines Vendor-Lock-ins, Nutzung neuer KI-Innovationen und Umsetzung beliebiger Anwendungsfälle empfiehlt sich eine flexible und hybride Plattform, die auf Open Source basiert.“

Jan Wildeboer, Red Hat

Während vLLM eine umfassende Modellunterstützung für eine Vielzahl von Hardwareplattformen bietet, geht llm-d noch einen Schritt weiter. Aufbauend auf bestehenden IT-Infrastrukturen in Unternehmen bietet llm-d verteilte und fortschrittliche Inferenzfunktionen, die zur Ressourceneinsparung und Leistungssteigerung beitragen, darunter eine deutliche Verbesserung der Time-to-First-Token und des Durchsatzes unter Latenzbedingungen. llm-d ist eine leistungsstarke Suite von Neuerungen, entscheidend sind aber zwei Innovationen, die zur Verbesserung der Inferenz beitragen: die Disaggregation und der intelligente Scheduling Layer. Durch die Disaggregation können Hardwarebeschleuniger während der Inferenz wirksamer genutzt werden. Dabei wird die Prompt-Verarbeitung von der Token-Generierung in einzelne Workloads, sogenannte Pods, getrennt. Diese Aufteilung ermöglicht eine unabhängige Skalierung und Optimierung in den einzelnen Phasen, die schließlich unterschiedliche Rechenanforderungen haben. Der intelligente Scheduling Layer erweitert zudem die Kubernetes Gateway API und ermöglicht differenziertere Routing-Entscheidungen für eingehende Anfragen. Dafür werden Echtzeitdaten wie die Cache- und Pod-Auslastung genutzt, um Anfragen an die optimale Instanz weiterzuleiten, wodurch die Arbeitslast im Cluster ausgeglichen wird.

Hybrid Cloud als Infrastrukturbasis

Welchen KI-Weg ein Unternehmen auch einschlägt, wichtig sind auf jeden Fall immer eine adäquate Architekturbasis und Infrastruktur. Zur Vermeidung eines Vendor Lock-ins, Nutzung neuer KI-Innovationen und Umsetzung beliebiger Anwendungsfälle empfiehlt sich eine flexible und hybride Plattform, die auf Open Source basiert. Eine solche Plattform bietet auch die erforderliche Flexibilität für das Training und Finetuning sowie für die Bereitstellung und Überwachung von KI-Modellen in der Cloud, am Edge oder On-Premises. So kann ein Training beispielsweise auf GPU-Farmen mit klarer Mandantentrennung in der Cloud erfolgen und anschließend das Modell On-Premises im Produktivbetrieb eingesetzt werden. Auf diese Weise wird auch die Datensicherheit und -hoheit mit der für anspruchsvolle KI-Modelle nötigen kostenintensiven Rechenleistung in Einklang gebracht.

Hybrid-Cloud-Lösungen sind allein schon deshalb sinnvoll, weil sie die Chancen, die KI bietet, nicht durch isolierte Infrastrukturen einschränkt. Schließlich sollte es das Ziel sein, dass ein Unternehmen jedes Modell auf jedem Beschleuniger und in jeder Cloud einsetzen kann – und zwar mit konsistenter Benutzererfahrung und ohne exorbitante Kosten. Die Möglichkeiten dazu existieren schon heute. Vor allem aber kann ein Swarm-AI-Ansatz, der auf der Nutzung vieler kleiner Modelle für spezifische Aufgaben basiert und eine Alternative zu LLMs darstellt, den Weg in eine vielversprechende KI-Zukunft weisen. KI wird so zu einem Tool, das jetzt greifbar und für Unternehmen eigenständig nutzbar ist sowie unmittelbar bei der täglichen Arbeit unterstützt.

Über den Autor:
Jan Wildeboer ist EMEA Evangelist bei Red Hat. Als EMEA Evangelist bei Red Hat ist Jan Wildeboer verantwortlich für High-Level-Kundenbeziehungen sowie für die Stärkung der Marke Red Hat und des Ökosystems von Red Hat. Das beinhaltet C-Level-Kunden-Meetings und der Auftritt als Keynote-Sprecher auf Veranstaltungen in der EMEA-Region.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Umdenken bei KI: Small AI auf der Überholspur

Statt großer LLMs setzen Unternehmen zunehmend auf spezialisierte Small Language Models. Erfahren Sie in diesem Beitrag, wie SLMs Kosten senken und digitale Souveränität stärken.

Von der Antwortverbesserung zum Aufruf externer Funktionen

Open-Source-basiert zur vertrauenswürdigen KI

vLLM und llm-d als Bausteine moderner KI-Anwendungen

Hybrid Cloud als Infrastrukturbasis

Erfahren Sie mehr über Künstliche Intelligenz (KI) und Machine Learning (ML)

Die Grundlagen der Observability von LLMs verstehen

Die wichtigsten KI-Begriffe

Small Language Model (SLM), kleines Sprachmodell

Warum Small Language Models (SLM) auf dem Vormarsch sind