ÐаÑеÑина ÐвÑеÑов
KI-Crawler und das offene Web: Regeln für mehr Fairness
KI-Bots verändern das Internet grundlegend. Der Text zeigt, warum neue Standards für Transparenz, Zweckbindung und Fairness nötig sind, um Content-Anbieter zu schützen.
Künstliche Intelligenz verändert die Mechanik des Internets. Wo einmal klassische Suchmaschinen Inhalte indexierten und auffindbar machten, übernehmen jetzt intelligente KI-Systeme und antworten direkt auf die Fragen der Nutzer. Damit das funktioniert, sammeln KI-Bots Daten aus dem offenen Internet, die dann für das Basistraining beziehungsweise Fine-Tuning von Sprachmodellen oder auch für die konkrete Beantwortung bestimmter Nutzeranfragen in Echtzeit verwendet werden. Diese Entwicklung eröffnet neue Möglichkeiten für Wissenssysteme aller Art – und doch wirft sie komplexe Fragen auf: Wer kontrolliert diese Bots? Wie transparent arbeiten sie? Und wie fair ist das für alle Beteiligten?
Die wachsende Kluft zwischen KI-Unternehmen und Inhalteanbietern
Während KI-Unternehmen von hochwertigen und aktuellen Inhalten besonders profitieren, um Lücken in ihren Sprachmodellen zu stopfen und damit die Outputs ihrer Systeme zu verbessern, verschiebt sich das Gleichgewicht zum Nachteil jener, die diese wertvollen Inhalte erschaffen. Sichtbarkeit und Reichweite der Originalquellen schwinden, da Antworten zunehmend direkt in der Suchmaschine oder im Chatfenster erscheinen – häufig ohne Verweis auf die ursprüngliche Quelle. In Folge besuchen menschliche Nutzer immer weniger originäre Websites, was ein wachsendes Problem für werbefinanzierte Geschäftsmodelle im Internet darstellt – insbesondere seit der Einführung von KI-Zusammenfassungen als Teil der Online-Suche im Jahr 2024.
Immer mehr KI-Crawler durchstreifen das Netz und erzeugen dabei hohe Serverlasten. Einige tarnen sich sogar als normale Browser oder ignorieren robots.txt-Dateien. Webseitenbetreiber wissen in vielen Fällen weder, wer hinter den Crawlern steckt, noch wofür die von ihnen gesammelten Daten verwendet oder wie sie monetarisiert werden. Daraus entsteht ein strukturelles Ungleichgewicht: KI-Betreiber profitieren von der offenen Wissensinfrastruktur, während die Schöpfer digitaler Inhalte zunehmend die Kontrolle und oft auch ihre wirtschaftliche Existenzgrundlage verlieren. Damit ist die Zukunft des Internets als verlässliche Informationsquelle in Gefahr: Wenn keine Anreize mehr für die Erstellung qualitativ hochwertiger Webinhalte bestehen, werden am Ende auch den KI-Systemen wichtige Daten fehlen, um ihre steigenden Anforderungen zu erfüllen.
Wenn das KI-Zeitalter auf Legacy-Standards trifft
Das offene Internet basiert auf Vertrauen und freiwilliger Kooperation – doch die dafür gedachten Mechanismen stammen aus einer anderen Zeit. Beispielsweise ist das robots.txt-Protokoll über 30 Jahre alt und ermöglicht es Website-Betreibern lediglich, Crawlern zu signalisieren, ob ihr Zugriff erwünscht ist oder nicht. Es enthält keinen Durchsetzungsmechanismus. Zudem ist keine feinere Unterscheidung in Abhängigkeit vom Verwendungszweck der gesammelten Daten (wie etwa Suche, KI-Zusammenfassungen oder KI-Training) vorgesehen. Eine verbindliche Identifikation von KI-Bots ist zwar inzwischen technisch möglich, wird aber noch zu selten umgesetzt.
Um den beschriebenen Herausforderungen zu begegnen, braucht es einen Konsens darüber, wie Verhaltensregeln für verantwortliche KI-Crawler aussehen könnten. Verschiedene Akteure in den Bereichen Infrastruktur, Forschung und Regulierung arbeiten derzeit an Konzepten, die das Gleichgewicht zwischen Offenheit und Schutz wahren sollen. Ziel ist es, den legitimen Zugang zu Online-Inhalten zu ermöglichen, ohne die Rechte der Inhalteanbieter zu schmälern.
Wichtig ist es deshalb, einen Dialog mit allen relevanten Stakeholdern zu führen – mit dem Ziel, einen Ansatz zu entwickeln, der die Interessen der Ersteller von Inhalten respektiert und gleichzeitig genug Raum für KI-Innovationen lässt.
Prinzipien für verantwortungsvolle KI-Bots:
Veröffentlichung von Informationen
Im offenen Internet sollte kein automatisierter Zugriff im Verborgenen stattfinden. Jeder KI-Bot muss klar machen, welcher Betreiber dahinter steht und zu welchem Zweck er Daten sammelt. Momentan agieren viele KI-Crawler anonym oder unter generischen Kennungen, ohne Hinweis auf den eigentlichen Ursprung. So bleibt Webseitenbetreibern verborgen, wer ihre Inhalte kopiert, und ob diese etwa für das Training großer Sprachmodelle oder für die Antwortgenerierung genutzt werden.
Eine konsequente Veröffentlichung von Informationen sorgt hingegen für Transparenz und Verantwortlichkeit. Diese Informationen sollten es Außenstehenden ermöglichen, Bots zu identifizieren (zumindest anhand von User Agents und relevanten IP-Adressen), den Betreiber zu kontaktieren und zu verstehen, zu welchen Zwecken die gesammelten Daten verwendet werden.
Selbstidentifikation
Informationen über Bots sollten nicht nur veröffentlicht, sondern auch von den Bots selbst klar kommuniziert werden, beispielsweise indem deren HTTP-Anfrage den offiziellen User Agent des Bots übermittelt und von einer IP-Adresse kommt, die nachweislich von diesem Bot genutzt wird. Tatsächlich sind diese Maßnahmen immer noch anfällig für Missbrauch, indem böswillige Akteure User Agents nachahmen (spoofen) und die robots.txt-Anweisungen der Websitebetreiber missachten.
Letztendlich sollte jeder KI-Bot kryptografisch unter Verwendung eines akzeptierten Standards verifiziert werden. Dafür bietet beispielsweise der Web Bot Auth Standard eine Lösung. Dabei verifizieren kryptographische Signaturen in HTTP-Nachrichten, dass eine bestimmte Anfrage von einem Bot stammt. Dies schützt Websites vor Spoofing und stellt sicher, dass Website-Betreiber die genauen und zuverlässigen Informationen haben, die sie benötigen, um den Zugriff durch KI-Bots ordnungsgemäß zu bewerten.
Eindeutige Zweckbindung
Für Content-Ersteller ist es von entscheidender Bedeutung, dass Bots einen einzigen, erklärten Zweck haben. Entgegen diesem Grundsatz kombinieren heute einige Bots verschiedene Zwecke. Zum Beispiel sammelt der Google-Crawler Googlebot Inhalte für die Suchindizierung und gleichzeitig Informationen zur Erstellung von KI-Zusammenfassungen sowie für das KI-Training. Das bringt Websitebetreiber in eine Zwickmühle. Sie möchten zwar, dass ihre Inhalte zur Traffic-Generierung in den Suchergebnissen erscheinen, lehnen es jedoch häufig ab, dass ihre Informationen verwendet werden, um eine KI-Zusammenfassung zu erstellen, die menschlichen Nutzern weniger Anreiz gibt, ihre Website zu besuchen.
Präferenzen respektieren
Transparenz und ein klarer Zweck sind bedeutungslos, wenn Bot-Betreiber die Präferenzen der Website-Betreiber nicht respektieren. Der etablierteste Mechanismus hierfür ist das robots.txt-Protokoll, das allerdings ziemlich veraltet ist, wie oben erwähnt. Nun soll das Protokoll weiterentwickelt werden. Eine IETF-Arbeitsgruppe arbeitet an einem erweiterten Vokabular, das Website-Betreibern differenziertere Kontrollmöglichkeiten bieten soll. Künftig kann damit nicht nur der Zugriff erlaubt oder verweigert, sondern auch die zulässige Nutzungsart spezifiziert werden – beispielsweise durch Suchindizierung bei einem gleichzeitigen Ausschluss von KI-Zusammenfassungen.
Zudem entstehen neue Standards, die zum Beispiel die Verwendung von HTTP-Headern ermöglichen, um Crawling-Präferenzen auszudrücken. So kann eine Website mit ihrem Inhalt einen Header senden, der dessen Verwendung für die Suche ausdrücklich erlaubt, aber dessen Verwendung für KI-Zusammenfassungen oder Training verbietet. KI-Bot-Betreiber sind dazu aufgerufen, sich auf solche sich entwickelnden Standards einzustellen.
Mit guter Absicht handeln
Schließlich sollten alle Bots mit guter Absicht handeln. Dies ist ein lang währender Grundsatz für akzeptables Bot-Verhalten, der im Zeitalter der KI wichtiger denn je ist. Zumindest bedeutet dies, dass KI-Bots keinen Schaden verursachen sollten, indem sie etwa Websites mit Traffic überlasten, in irgendeiner Weise ihre Sicherheit gefährden oder sich täuschend verhalten. Im Gegenteil sollte das Verhalten von KI-Bots für Website-Betreiber und deren Nutzer harmlos oder sogar hilfreich sein. Es obliegt auch den KI-Bot-Betreibern, ihre Netzwerke und Ressourcen auf Sicherheitsverletzungen hin zu überwachen und Schwachstellen zu beheben.
![]()
„Um sich auf praktikable Regeln und technische Standards zu einigen, ist die Zusammenarbeit im gesamten Ökosystem erforderlich – zwischen Inhalte-Anbietern, KI-Unternehmen und politischen Entscheidungsträgern. Nur so lässt sich sicherstellen, dass das Internet eine lebendige und nachhaltige Ressource für alle Beteiligten bleibt.“
Sebastian Hufnagel, Cloudflare
Ebenso wenig ist es angemessen, den Anschein zu erwecken, bestimmte Grundsätze einzuhalten, nur um sie heimlich zu umgehen. So sollten KI-Bots niemals Stealth-Crawling betreiben oder andere Stealth-Taktiken anwenden, um der Entdeckung zu entgehen, wie etwa das Ändern ihres User Agents, das Ändern ihrer Quell-ASNs, um ihre Crawling-Aktivitäten zu verbergen, oder das Ignorieren von robots.txt-Dateien. Ein solches Vorgehen würde die vorangegangenen vier Grundsätze untergraben, Website-Betreibern schaden und das Internet für alle verschlechtern.
Fazit
Die oben beschriebenen Grundsätze sind nicht in Stein gemeißelt. Sie sind ein Ausgangspunkt für eine Debatte, an der sich möglichst viele relevante Stakeholder beteiligen sollten. Ziel muss es sein, ein praktikables Gleichgewicht zu finden – eines, das die Integrität des Web-Publishing-Ökosystems schützt und gleichzeitig fortgesetzte Innovationen im Bereich der KI ermöglicht. Um sich auf praktikable Regeln und technische Standards zu einigen, ist die Zusammenarbeit im gesamten Ökosystem erforderlich – zwischen Inhalte-Anbietern, KI-Unternehmen und politischen Entscheidungsträgern. Nur so lässt sich sicherstellen, dass das Internet eine lebendige und nachhaltige Ressource für alle Beteiligten bleibt.
Über den Autor:
Sebastian Hufnagel ist Senior Public Policy Manager DACH bei Cloudflare.
Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.