ÐÐ°ÑÐµÑÐ¸Ð½Ð° ÐÐ²ÑÐµÑÐ¾Ð²

Meinung

Jailbreaks und Schatten-KI: Risiken von KI-Agenten bändigen

Mit dem Einsatz von KI-Agenten gehen Risiken wie autonomes Fehlverhalten, Jailbreaking oder mangelnde Datenkontrolle einher. Es gilt, die Sicherheitsstratege darauf anzupassen.

von

Steve Riley, Netskope

Zuletzt aktualisiert: 12 Juni 2026

In der aktuellen Phase der digitalen Transformation markiert der Übergang von rein assistierenden KI-Systemen hin zu Agentic AI (agentenbasierter KI) einen entscheidenden Wendepunkt. Während herkömmliche Sprachmodelle primär Informationen aufbereiten oder Empfehlungen aussprechen, zeichnen sich KI-Agenten durch Handlungsfähigkeit aus. Sie verfolgen autonom Ziele, treffen Entscheidungen und führen komplexe Prozessschritte eigenständig aus.

Für Unternehmen bedeutet dies eine enorme Skalierbarkeit und Geschwindigkeit. Für die IT-Sicherheit stellt sich jedoch eine fundamentale Frage: Wie lassen sich Systeme absichern, die nicht mehr nur Werkzeug, sondern eigenständige Akteure im Unternehmensnetzwerk sind? Die Antwort liegt nicht in der Neuerfindung der Cybersicherheit, sondern in der konsequenten Anwendung bewährter Prinzipien wie Zero Trust, Identitätsmanagement und kontinuierlicher Überwachung auf die neue Klasse der KI-Entitäten.

Der KI-Agent als Sicherheitsprinzipal

Die zentrale Herausforderung der Agentic AI besteht darin, dass diese Systeme oft in Grauzonen operieren. Häufig nutzen sie bestehende Dienstkonten oder leihen sich Identitäten menschlicher Benutzer, um Aktionen in Cloud-Umgebungen oder Datenbanken auszuführen. Aus Sicht der IT-Governance ist dies ein riskanter Zustand, da die Verantwortlichkeit (Accountability) verloren geht. Um agentenbasierte KI sicher zu integrieren, muss sie auf Systemebene als Sicherheitsprinzipal (Security Principal) behandelt werden. Ein Sicherheitsprinzipal ist der nukleare Ausgangspunkt des Vertrauens in jeder IT-Architektur. Er umfasst Menschen, Geräte oder Dienste, die eindeutig identifiziert und verifiziert werden können.

Die digitale Staatsbürgerschaft für Algorithmen

Jeder KI-Agent benötigt eine eigene, unveränderliche Identität – eine Art digitale Staatsbürgerschaft, die technisch durch eine eindeutige Sicherheitskennung (Security Identifier, SID) hinterlegt ist. Sobald ein Agent eine eigene Identität besitzt, lassen sich klassische Sicherheitsmechanismen anwenden:

Granulare Autorisierung: Der Zugriffsbereich (Scope) des Agenten wird präzise definiert. Er erhält nur jene Berechtigungen, die für seine spezifische Aufgabe zwingend erforderlich sind (Least Privilege).
Transparente Audit-Trails: Jede Entscheidung und jede Aktion des Agenten wird protokolliert. Da autonome Systeme Fehler machen können, ist die lückenlose Nachvollziehbarkeit die Grundvoraussetzung für die Fehleranalyse und forensische Untersuchungen.
Zeitliche Befristung: Berechtigungen für KI-Agenten sollten nicht dauerhaft, sondern kontextbezogen und zeitlich begrenzt vergeben werden, um das Risiko einer lateralen Ausbreitung im Falle einer Kompromittierung zu minimieren.

Die unvermeidliche Bedrohung: Jailbreaking und Datenkontrolle

Trotz einer soliden Identitätsstrategie bleibt die technologische Basis der KI – insbesondere Large Language Models (LLMs) – anfällig. Ein kritischer Aspekt ist das sogenannte Jailbreaking. Hierbei werden die internen Schutzmechanismen eines Modells durch gezielte Manipulation der Eingabeaufforderungen (Prompts) umgangen.

Jailbreaking spiegelt einen systemimmanenten Widerspruch wider: KI-Modelle müssen einerseits flexibel genug sein, um natürlichen Sprachkontext zu verstehen, und andererseits starr genug, um Sicherheitsrichtlinien einzuhalten. Angreifer nutzen diese Flexibilität aus, um Modelle zu korrumpieren. Aktuelle Daten zeigen die Brisanz: Ein erfolgreicher Jailbreak-Versuch dauert oft weniger als eine Minute und benötigt nur wenige Interaktionen.

Besonders gefährlich sind indirekte Angriffe. Hierbei wird das Modell nicht direkt durch den Nutzer manipuliert, sondern durch die Daten, die es verarbeitet. Wenn ein KI-Agent beispielsweise öffentliche Foren zusammenfasst oder externe Webseiten analysiert, kann in diesen Quellen versteckter Schadcode (zum Beispiel Links zu Drive-by-Downloads) enthalten sein. Der Agent reproduziert den schädlichen Inhalt im guten Glauben als Teil seines Ergebnisses.

Damit wird die KI zum unfreiwilligen Boten für Cyberangriffe.

Paradigmenwechsel: Vom deterministischen zum adaptiven Schutz

Traditionelle Sicherheitstests stoßen bei KI-Systemen an ihre Grenzen. In der klassischen Softwareentwicklung ist ein Fehler deterministisch: Findet man eine Schwachstelle in einer Bibliothek, betrifft sie alle Instanzen. KI-Modelle hingegen sind nicht-deterministisch. Die gleiche Eingabe kann zu unterschiedlichen Zeitpunkten unterschiedliche Ergebnisse liefern.

Ein einmaliger Sicherheitsscan reicht daher nicht aus. Erforderlich ist ein kontinuierliches Red Teaming. Hierbei werden Angriffe automatisiert simuliert, um Fehlermuster statt einzelner Bugs aufzudecken. Frameworks wie MITRE ATLAS oder die OWASP Top 10 für LLM-Risiken bieten hierfür die notwendige Struktur, um KI-Sicherheit in bestehende defensive Workflows zu integrieren.

„Der Einsatz von Agentic AI ist letztlich kein Problem der KI-Technologie selbst, sondern ein Problem der Datenkontrolle. Jailbreak-Versuche und autonomes Fehlverhalten zielen fast immer darauf ab, sensible Informationen zu exfiltrieren oder Entscheidungsprozesse zu manipulieren.“

Steve Riley, Netskope

Strategische Säulen der Absicherung

Um Agentic AI ohne einen kompletten Neustart der Sicherheitsinfrastruktur einzuführen, sollten Unternehmen eine siebenstufige Strategie verfolgen:

Identitätspflicht: Registrierung jedes Agenten mit eindeutigen Zugangsdaten.
Personelle Verantwortlichkeit: Jedem autonomen System muss ein menschlicher Owner zugewiesen werden, der für dessen Aufsicht verantwortlich ist.
Strenge Scope-Limitierung: Konsequente Einschränkung der Zugriffsrechte auf das absolute Minimum.
Lückenlose Protokollierung: Echtzeit-Monitoring aller Aktivitäten zur Sicherstellung der Compliance.
Zentrale Abschaltsteuerung (Kill Switch): Implementierung einer Steuerung, die Agenten bei verdächtigem Verhalten sofort deaktivieren kann.
Regelmäßige Rezertifizierung: Die Berechtigungen von KI-Agenten müssen genauso zyklisch überprüft werden wie die von menschlichen Mitarbeitern.
Adaptive Vertrauensmodelle: Einsatz von Systemen, die das Vertrauenslevel basierend auf dem aktuellen Verhalten des Agenten dynamisch anpassen (Continuous Adaptive Trust).

Fazit: Datensicherheit als Fundament der KI-Autonomie

Der Einsatz von Agentic AI ist letztlich kein Problem der KI-Technologie selbst, sondern ein Problem der Datenkontrolle. Jailbreak-Versuche und autonomes Fehlverhalten zielen fast immer darauf ab, sensible Informationen zu exfiltrieren oder Entscheidungsprozesse zu manipulieren.

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Jailbreaks und Schatten-KI: Risiken von KI-Agenten bändigen

Mit dem Einsatz von KI-Agenten gehen Risiken wie autonomes Fehlverhalten, Jailbreaking oder mangelnde Datenkontrolle einher. Es gilt, die Sicherheitsstratege darauf anzupassen.

Der KI-Agent als Sicherheitsprinzipal

Die digitale Staatsbürgerschaft für Algorithmen

Die unvermeidliche Bedrohung: Jailbreaking und Datenkontrolle

Paradigmenwechsel: Vom deterministischen zum adaptiven Schutz

Strategische Säulen der Absicherung

Fazit: Datensicherheit als Fundament der KI-Autonomie

Erfahren Sie mehr über Datensicherheit

Prompt Injection untergräbt die Kontrolle über Sprachmodelle

Den Risiken durch KI-Agenten im Unternehmen aktiv begegnen

HPE verzahnt KI-Agenten, Infrastruktur und Betrieb

Cisco setzt auf agentische KI im Netzwerkbetrieb