Block nomic Studio - stock.adobe

Wie sich RAG bei KI auf den Datenschutz auswirkt

RAG-Systeme (Retrieval-augmented Generation) sollen Genauigkeit, Nachvollziehbarkeit und Verlässlichkeit der KI-Ausgaben erhöhen. Doch sie haben auch Folgen für den Datenschutz.

„Retrieval-augmented Generation (RAG) ist ein KI-Verfahren, das ein Large Language Model (LLM) mit einer guten Suche, zum Beispiel in einer Dokumentensammlung, in einer Datenbank oder in einem Knowledge Graph ergänzt, um Antworten zu generieren“, erklärt das Fraunhofer-Institut für Experimentelles Software Engineering IESE. RAG hat mehrere Vorteile: Die Verlässlichkeit der KI kann gesteigert werden, zudem ist es möglich, die LLMs auch für interne Daten des Anwenderunternehmens zu nutzen.

Nicht nur die Wissenschaft befasst sich mit den möglichen Folgen von RAG, wie der Verlässlichkeit und Rechtssicherheit KI-generierter Inhalte durch Retrieval-augmented Generation. Auch die Datenschutzbehörden beleuchten die Auswirkungen von RAG bei KI-Systemen.

RAG und der Datenschutz

„RAG-Systeme haben großes Potenzial und bieten einen neuen innovativen Ausgangspunkt für die digitale Entwicklung made in Europe“, kommentiert zum Beispiel der Landesbeauftragte für den Datenschutz und die Informationsfreiheit Baden-Württemberg. „Unternehmen und Behörden verfügen über eine enorme Menge an personenbezogenen und nicht personenbezogenen Daten, die bislang oftmals kaum genutzt werden. Sie können sich mit RAG-Systemen unabhängiger machen von großen Anbietern und ihre Systeme souverän fortentwickeln. Datenschutzrechtlich ist es unbedingt sinnvoll, kontrollierbare Systeme zu betreiben, die personenbezogene Daten bestmöglich schützen.“

Die Konferenz der unabhängigen Datenschutzbehörden von Bund und Ländern (DSK) hat eine Orientierungshilfe für Unternehmen und Behörden (PDF) veröffentlicht, die KI-Systeme mit Retrieval-augmented Generation (RAG) bereits einsetzen oder einsetzen möchten. Die Orientierungshilfe bietet rechtliche und technische Hinweise, wie die Potenziale solcher KI-Systeme genutzt und zugleich die Risiken für die Betroffenen verringert werden können.

Meike Kamp, Berliner Beauftragte für Datenschutz und Informationsfreiheit und 2025 DSK-Vorsitzende, begründete die neue Orientierungshilfe: „RAG-Systeme können Unternehmen und Behörden dabei unterstützen, die Vorteile moderner KI zu nutzen und zugleich die damit einhergehenden Risiken für die Rechte und Freiheiten von betroffenen Personen zu vermindern. Entscheidend ist jedoch, dass ihr Einsatz von Anfang an datenschutzkonform gestaltet wird. Verantwortliche müssen Transparenz, Zweckbindung und die Wahrung der Betroffenenrechte jederzeit gewährleisten.“

Zu den Vorteilen von RAG bei KI-Systemen zählen die Aufsichtsbehörden, dass RAG-Systeme eigenständig entwickelt, betrieben und kontrolliert werden und damit Datenschutz-by-Design abbilden können. Zudem können sie den Einsatz kleinerer und auch lokal betriebener Modelle ermöglichen, was beispielsweise einen Betrieb des Systems ohne Übermittlung personenbezogener Daten an Dritte wie etwa Hyperscaler ermöglicht. Damit kann die RAG-Methode einen wichtigen Beitrag zur digitalen Souveränität leisten, so die Datenschützer.

Auch bei RAG gibt es Datenrisiken

Die Risiken für den Schutz personenbezogener Daten dürfen aber auch bei RAG-Einsatz nicht übersehen werden. RAG-Systeme beseitigen beispielsweise nicht die datenschutzrechtlichen Probleme eines rechtswidrig trainierten Large Language Modells (LLMs).

Zudem bleibt es aus Sicht der Datenschutzbehörden herausfordernd, Transparenz, Zweckbindung und die Umsetzung von Betroffenenrechten im gesamten System sicherzustellen. Verantwortliche Stellen, die RAG-Systeme einsetzen wollen, müssen demnach die datenschutzrechtlichen Bewertungen der einzelnen Verarbeitungen im Einzelfall vornehmen und ihre technisch-organisatorischen Maßnahmen immer auf dem aktuellen Stand halten.

Allein die Hinzunahme interner oder anderer Quellen und Daten zu der Datenbasis eines LLMs macht also die Datenschutzprobleme, die bei einem LLM bestehen können, nicht einfach ungeschehen.

So weisen die Aufsichtsbehörden unter anderem darauf hin:

  • Bei der Einbindung externer Datenquellen muss die Rechtmäßigkeit der Verwendung, die Eignung und Richtigkeit der Daten und der damit erzielten Ergebnisse ausreichend geprüft und sichergestellt werden.
  • Die Einbindung von externen Daten kann die generierten Texte zwar aktuell oder spezifisch erscheinen lassen, kann sich aber auf die Richtigkeit auswirken und womöglich eine Priorisierung der internen und externen Datenquellen im RAG-Subsystem erforderlich machen.
  • Eine Erhöhung der datenschutzrechtlichen Transparenz in Bezug auf das eingesetzte LLM kann allein durch RAG nicht erreicht werden. Die Transparenz in einem RAG-System ist darauf beschränkt, Aussagen über die erweiterte Anfrage an die verwendete LLM-Komponente zu treffen.
  • Mit Blick auf die Vertraulichkeit muss im Rahmen des RAG-Subsystems datenschutzrechtlichen Anforderungen an die Datenbank mit etablierten Maßnahmen begegnet werden. Dazu können in einem RAG-Subsystem bewährte technische und organisatorische Maßnahmen, wie die Mandantentrennung/funktionale Trennung und das Rechte- und Rollenkonzept, angewendet werden.
  • Eine Bereitstellung bestimmter Dokumente für das LLM kann zielgerichtete Abfragen von personenbezogenen Daten ermöglichen, die strikt auf den definierten Verarbeitungszweck beschränkt sind. Hierfür müssen aber den Mitarbeitenden, die das RAG-System für verschiedene Zwecke benutzen, verschiedene Rollen zugewiesen werden.

Ungeachtet der Vorteile eines RAG-Systems bleiben zudem die Probleme bei der Datenlöschung im Sprachmodell selbst bestehen, so die Datenschützer.

Man kann also sagen: Bestimmte Datenschutzherausforderungen lassen sich bei RAG-Nutzung abmildern, andere hingegen bleiben bestehen. Zudem müssen auch für das RAG-System Maßnahmen getroffen werden, um den Datenschutz zu wahren, zum Beispiel Maßnahmen für den Schutz der Vertraulichkeit der Daten in den zusätzlichen Datenquellen. Nicht zuletzt braucht man auch für die Nutzung der zusätzlichen Daten immer eine Rechtsgrundlage, zusätzlich zu der Rechtsgrundlage, die man für das LLM benötigt.

Erfahren Sie mehr über Datenschutz und Compliance