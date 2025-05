Retrieval-Augmented Generation (RAG) gilt als eine der vielversprechendsten Methoden, um generative KI in Unternehmen effektiv einzusetzen. Diese Architektur kombiniert klassische Informationssuche mit großen Sprachmodellen (LLMs), um präzisere und fundiertere Antworten zu generieren. Trotz ihrer Vorteile erfordert die Implementierung eine durchdachte Strategie, die verschiedene technologische Bausteine integriert und Kompromisse zwischen Geschwindigkeit, Genauigkeit und Kosten eingeht.

In groben Zügen ist der Prozess eines RAG -Systems einfach zu verstehen. Es beginnt damit, dass der Nutzer einen Prompt – eine Frage oder Anfrage – sendet. Dieser natürlichsprachige Prompt und die dazugehörige Anfrage werden vom Prozess mit dem Inhalt der Wissensdatenbank verglichen. Die Ergebnisse, die der Anfrage am nächsten kommen, werden nach Relevanz geordnet und dann an eine LLM gesendet, die die an den Benutzer zurückgesandte Antwort erstellt.

Daten aufbereiten: Der Schlüssel zu effektiver RAG

Der erste Schritt besteht darin, die Dokumente zusammenzustellen, die man abfragen möchte. Die Qualität eines RAG-Systems steht und fällt mit den Eingangsdaten. Eine unstrukturierte, überladene oder fehlerhafte Datenbasis führt zu schlechten Ergebnissen. Unternehmen müssen daher gezielt relevante Dokumente auswählen und Strategien zur Aktualisierung der Daten definieren – entweder als Batch-Prozess oder in Echtzeit.

Ein LLM ist nicht de facto ein Werkzeug zur Datenaufbereitung. Es sollten Duplikate und Zwischenversionen von Dokumenten entfernt und Strategien zur Auswahl von aktuellen Artikeln oder Items angewendet werden. Diese Vorauswahl verhindert, dass das System mit potenziell unnötigen Informationen überlastet wird und vermeidet Leistungsprobleme.

Sobald die Dokumente ausgewählt sind, geht es darum, die Rohdaten (HTML-Seiten, PDF-Dokumente, Bilder, doc-Dateien) in ein verwertbares Format umzuwandeln, das heißt in Text und zugehörige Metadaten (ausgedrückt zum Beispiel in einer JSON-Datei). Diese Metadaten können sowohl die Struktur des Dokuments als auch seine Autoren, seine Herkunft, sein Erstellungsdatum und andere Informationen dokumentieren. Diese formatierten Daten werden dann in Token und anschließend in Vektoren umgewandelt.

Die wichtigsten Schritte der Datenaufbereitung im Kurzüberblick:

Deduplizierung: Entfernen redundanter oder veralteter Dokumente.

Entfernen redundanter oder veralteter Dokumente. Formatierung: Konvertieren von HTML, PDF, DOCX und anderen Formaten in ein strukturiertes Format (zum Beispiel JSON).

Konvertieren von HTML, PDF, DOCX und anderen Formaten in ein strukturiertes Format (zum Beispiel JSON). Metadaten-Erfassung: Speicherung von Quellenangaben, Erstellungsdaten und Autorinformationen.

Verlage haben beispielsweise schnell erkannt, dass es bei großen Dokumentenmengen und langen Texten wenig effizient ist, das gesamte Dokument zu vektorisieren.