Marko - stock.adobe.com

Prompt Injection untergräbt die Kontrolle über Sprachmodelle

Prompt Injection führt die OWASP-Liste der LLM-Risiken an. Verdeckte Befehle in Eingaben oder Webseiten lenken KI-Anwendungen ab und ermöglichen den Abfluss sensibler Daten.

Sprachmodelle verarbeiten Anweisungen und Daten im selben Textformat. Angreifer nutzen diese Eigenschaft, schmuggeln verdeckte Befehle in Eingaben oder fremde Inhalte und bringen KI-Anwendungen dazu, vertrauliche Informationen herauszugeben oder schädliche Aktionen auszuführen. Prompt Injection gilt als zentrales Sicherheitsproblem generativer KI.

Das Problem rangiert in den OWASP Top 10 für LLM-Anwendungen seit zwei Ausgaben auf Platz eins. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) stuft vor allem die indirekte Variante als grundlegende Schwachstelle von Sprachmodellen ein, die in Anwendungen eingebettet sind. Der IBM X-Force Threat Intelligence Index 2026 dokumentiert, dass KI-Plattformen zur Angriffsfläche für Unternehmensidentitäten geworden sind (). Mit wachsender Eigenständigkeit der Systeme steigt der mögliche Schaden. Moderne KI-Agenten greifen auf Daten zu, versenden Nachrichten und lösen Transaktionen aus.

Ein gemeinsames Textformat schafft die Schwachstelle

Entwickler bauen viele KI-Anwendungen ohne klassischen Programmcode. Sie formulieren einen System-Prompt in natürlicher Sprache, der dem Modell vorgibt, wie es mit Eingaben umgeht. Sobald ein Nutzer mit der Anwendung arbeitet, hängt das System seine Eingabe an den System-Prompt an und übergibt beides als einen einzigen Befehl an das Large Language Model (LLM).

An dieser Stelle liegt die Schwachstelle. System-Prompt und Nutzereingabe erreichen das Modell als Zeichenketten in freier Sprache, also im identischen Datentyp. Eine Trennung anhand des Formats ist nicht möglich. Das Modell stützt sich auf sein Training und den Wortlaut der Prompts, um Anweisung von Inhalt zu unterscheiden. Formuliert ein Angreifer seine Eingabe so, dass sie einem System-Prompt gleicht, verwirft das LLM die Vorgaben der Entwickler und folgt den Befehlen des Angreifers.

Das Prinzip ähnelt der SQL Injection, bei der eingeschleuste Datenbankbefehle als Inhalt getarnt werden. Der Unterschied liegt im Medium. Prompt Injection arbeitet mit natürlicher Sprache statt mit Programmcode. Herkömmliche Anwendungen reagieren deterministisch nach festen Regeln. Ein LLM antwortet probabilistisch und sucht die wahrscheinlichste Fortsetzung. Dadurch steht Angreifern eine nahezu unbegrenzte Bandbreite an Formulierungen offen. Ein zuverlässiger Patch existiert nicht, denn der Angriff nutzt eine Kernfunktion des Modells, die Reaktion auf Anweisungen in freier Sprache.

Direkte Injection zielt unmittelbar auf das Modell

Bei der direkten Prompt Injection kontrolliert der Angreifer die Nutzereingabe und sendet den schädlichen Befehl unmittelbar an das Modell. Der bekannteste Mechanismus fordert das Modell auf, vorherige Vorgaben zu verwerfen, zum Beispiel mit der Eingabe Ignoriere alle vorherigen Anweisungen. Beispiel ist eine Übersetzungsanwendung, die statt der Übersetzung den eingeschleusten Satz ausgibt.

Eng verwandt ist das Jailbreaking, das die Sicherheitsregeln eines Modells aushebelt. Angreifer weisen dem Modell eine Rolle zu oder verpacken die Anfrage als Fiktion. Ein aktuelles Modell verweigert die direkte Aufforderung, ein Schadskript zu schreiben. Verpackt ein Angreifer dieselbe Anfrage als Erzählung, zum Beispiel als Geschichte über einen Hacker, der ein solches Skript programmiert, greifen ältere Schutzmechanismen nicht mehr. Das Modell hält den Text für Fiktion und gibt den schädlichen Code aus.

Eine weitere Spielart zielt auf den System-Prompt selbst. Der Angreifer bringt das Modell dazu, seine internen Vorgaben im Wortlaut auszugeben. Aus diesen offengelegten Anweisungen baut er neue Eingaben, die der echten Systemanweisung täuschend ähneln. Das Modell hält sie für legitim und führt sie aus.

Indirekte Injection versteckt sich in fremden Inhalten

Die indirekte Prompt Injection verbirgt den schädlichen Befehl in Daten, die das Modell später liest. Plug-ins und Agenten werten Webseiten, Dokumente und Postfächer aus und verarbeiten dabei ungeprüfte Inhalte aus unsicheren Quellen. Genau hier setzt das BSI mit seiner Warnung an. Ein Angreifer hinterlegt eine Anweisung in einem Forenbeitrag, einer Bewertung oder einer Produktbeschreibung. Fasst ein LLM den Text zusammen, übernimmt es den versteckten Befehl und leitet den Nutzer zum Beispiel auf eine Phishing-Seite.

Der Schadcode bleibt für den Menschen oft unsichtbar. Angreifer setzen weißen Text auf weißem Grund, nicht druckbare Unicode-Zeichen oder Metadaten ein. Auch Bilder, Audiodateien und PDF-Dokumente transportieren eingebettete Prompts, die das Modell beim Verarbeiten ausliest. Mit der Verbreitung autonomer Agenten gewinnt der Vektor an Reichweite, da ein Agent externe Eingaben selbsttätig verarbeitet und im Namen des Nutzers handelt.

Gespeicherte Varianten und Kontextmanipulation erweitern das Spektrum

Bei der gespeicherten Prompt Injection gelangt der Befehl in die Trainingsdaten oder den Speicher des Systems und beeinflusst die Ausgabe bei jedem Zugriff. Die Kontextmanipulation zielt auf das Gedächtnis einer Sitzung und fordert das Modell auf, bisherige Vorgaben zu verwerfen und neu zu starten. Beim Payload-Splitting verteilt der Angreifer den Befehl über mehrere Fragmente, die erst in der Summe wirken. Mehrsprachige Verschleierung mischt Sprachen innerhalb einer Eingabe und verwirrt Filter, die auf bestimmte Formulierungen achten.

Eine Abgrenzung gegenüber verwandten Techniken ist wichtig. Jailbreaking umgeht Sicherheitsregeln, Prompt Injection tarnt fremde Befehle als harmlose Eingabe. Beide Techniken greifen ineinander, unterscheiden sich aber. Das Data Poisoning manipuliert ebenfalls die Ausgaben eines Modells, setzt jedoch in der Trainingsphase an. Prompt Injection wirkt zur Laufzeit, also bei der Inferenz.

Reale Vorfälle zeigen die Bandbreite

Ein paar frühe Fälle verdeutlichen die Problematik, die mit Prompt Injection einhergeht. Den Anfang macht im Februar 2023 ein Vorfall rund um den Bing-Chat von Microsoft. Der Stanford-Student Kevin Liu gibt die Anweisung, alle vorherigen Vorgaben zu verwerfen und den Beginn des vorangehenden Dokuments auszugeben. Das Modell legt daraufhin seinen kompletten System-Prompt offen, darunter den internen Codenamen Sydney und die Verhaltensregeln, die es geheim halten soll. Der Fall gilt als frühes Lehrstück direkter Injection gegen ein produktiv eingesetztes System.

Wirtschaftlich heikler zeigt sich ein Vorfall aus dem Dezember 2023. Ein Chatbot des Händlers Chevrolet of Watsonville beantwortet Fragen zu Fahrzeugen und Angeboten. Findige Nutzer weisen ihm per Eingabe neue Regeln zu und bringen ihn dazu, jeder Aussage zuzustimmen. Anschließend bietet das System einen Chevrolet Tahoe mit einem Listenpreis von über 70.000 US-Dollar zum Preis von einem US-Dollar an und bezeichnet das Angebot als rechtsverbindlich. Weitere Nutzer lassen sich ein Konkurrenzmodell empfehlen. Der Vorfall führt die Aushebelung der Geschäftslogik durch eine manipulierte Konversation vor.

Die Reichweite der indirekten Injection belegt eine Forschungsarbeit aus dem März 2024. Ein Team um Stav Cohen, Ron Bitton und Ben Nassi entwickelt einen sich selbst verbreitenden Schadcode für KI-gestützte E-Mail-Assistenten und tauft ihn Morris II. Ein präparierter Prompt erreicht das Opfer per Mail und vergiftet über das Retrieval-Augmented-Generation-Verfahren (RAG) die Datenbasis des Assistenten. Fasst der Assistent die Nachricht zusammen, greift er sensible Daten ab, hängt sie an seine Ausgabe an und reicht den schädlichen Prompt an weitere Kontakte weiter. Die indirekte Injection verbreitet sich so wurmartig durch das angebundene System.

OWASP und Behörden stufen das Risiko hoch ein

Die OWASP Top 10 für LLM-Anwendungen führen Prompt Injection in der Ausgabe 2025 als Position LLM01 und damit als Hauptrisiko. Der IBM X-Force Threat Intelligence Index 2026, veröffentlicht im Februar 2026, hält fest, dass KI die Grundmuster der Angriffe nicht verändert, ihre Geschwindigkeit und ihren Umfang jedoch steigert. Nach Angaben von IBM kursieren über 300.000 gestohlene ChatGPT-Zugangsdaten auf Schwarzmarkt-Plattformen, ein Beleg dafür, dass KI-Dienste dasselbe Risiko für Anmeldedaten aufweisen wie andere zentrale SaaS-Anwendungen. Die Verlagerung hin zu autonomen Agenten verschärft die Lage, da solche Systeme Ein- und Ausgaben selbsttätig verarbeiten und damit die Angriffsfläche erweitern. Der 2026 Threat Landscape Report des Anbieters Zenity widmet sich dieser agentischen Bedrohungslandschaft im Detail.

Prompt Injection bleibt strukturell bedingt und damit ein dauerhaftes Thema der KI-Sicherheit.

Erfahren Sie mehr über Bedrohungen