KI verändert die Art, wie Unternehmen Content moderieren, insbesondere in sozialen Medien und angesichts der Zunahme von KI-generierten Inhalten. Was dabei zu beachten ist.
In digitalen Umgebungen gibt es jede Menge Falschinformationen und unangemessene Inhalte. Nutzer haben häufig Probleme, die Quelle solcher Inhalte zu bestimmen oder sie herauszufiltern.
Die Moderation von Inhalten wird häufig als Maßnahme zur Überprüfung von Content in sozialen Medien eingesetzt. Sie ermöglicht die Freigabe oder Ablehnung von Kommentaren und Inhalten, die Nutzer erstellen und veröffentlichen. Dabei werden regelwidrige Inhalte entfernt, um sicherzustellen, dass veröffentlichte Beiträge den Community-Richtlinien und Nutzungsbedingungen entsprechen.
Künstliche Intelligenz (KI) kann diesen Prozess unterstützen. Sie sucht, markiert und entfernt Inhalte – sowohl von Menschen als auch von KI generierte –, die gegen die Regeln oder Richtlinien einer Social-Media-Plattform, einer Website oder einer Organisation verstoßen. Dazu gehören alle Audio-, Video-, Text-, Bild- und Kommentar-Inhalte, die als beleidigend, vulgär oder gewalttätig angesehen werden.
Was ist Inhaltsmoderation?
„In der Vergangenheit haben Unternehmen Inhalte mit menschlichen Moderatoren moderiert, die die meisten Inhalte vor der Veröffentlichung überprüft haben“, sagt Jason James, CIO beim Einzelhandelssoftwareanbieter Aptos. Die Moderatoren haben die Inhalte auf ihre Angemessenheit überprüft und sie entweder genehmigt und veröffentlicht oder abgelehnt und blockiert.
Bis vor kurzem wussten die Nutzer oft nicht, ob ihre Inhalte abgelehnt wurden und wenn ja, nach welchen Kriterien dies geschah. Der gesamte Prozess war manuell und verhinderte Echtzeit-Reaktionen auf Beiträge. Die Genehmigung hing letztendlich auch von den Entscheidungen und Neigungen eines einzelnen Moderators ab.
„Infolgedessen haben viele Unternehmen eine Mischung aus automatisierten und manuellen Moderationen eingeführt“, sagt James. KI bildet die erste Ebene und filtert Spam und leicht zu moderierende Inhalte heraus, während Menschen die nuancierteren Inhalte moderieren. Die manuelle Moderation zusätzlich zur automatischen ist entscheidend, da das Unternehmen mit schwerwiegenden Konsequenzen rechnen muss, wenn etwas Anstößiges durch die Maschen fällt.
Automatisierte Moderation findet statt, wenn nutzergenerierte Inhalte (User Generated Content, UGC), die über die Plattform oder Website gepostet werden, automatisch auf Verstöße gegen die Regeln und Richtlinien der Plattform überprüft werden. Ist dies der Fall, werden sie laut Sanjay Venkataraman, ehemaliger Chief Transformation Officer bei ResultsCX, einem Anbieter von CX-Management, entweder vollständig entfernt oder zur manuellen Moderation weitergeleitet.
Abbildung 1: Wenn ein Unternehmen über bewährte Verfahren für die Moderation von Inhalten verfügt, kann es KI-Tools zur Moderation von Inhalten leichter einsetzen.
6 Arten der Moderation von Inhalten
Unternehmen können sechs Methoden anwenden, um KI-basierte Inhaltsmoderation effektiv zu skalieren.
1. Vorabmoderation
Um sicherzustellen, dass Inhalte ihren Richtlinien entsprechen, können Unternehmen Natural Language Processing (NLP) einsetzen, um nach Wörtern und Phrasen zu suchen, darunter auch beleidigende oder bedrohliche Wörter und Begriffe. Enthält der Inhalt solche Wörter, kann er automatisch abgelehnt und der Nutzer gewarnt oder für zukünftige Beiträge gesperrt werden. Dieser automatisierte Ansatz reduziert den Bedarf an menschlichen Moderatoren, die jeden Beitrag überprüfen müssen.
Dies ist eine frühe Methode des maschinellen Lernens (ML) für die Moderation von Inhalten. Ein entsprechendes Tool kann laut James Inhalte anhand einer veröffentlichten Sperrliste überprüfen, um sicherzustellen, dass sie keine verbotenen Wörter oder Ausdrücke enthalten.
„Ein KI-gestütztes Vorabmoderationsmodell scannt und bewertet Inhalte automatisch vor ihrer Veröffentlichung“, erläutert Venkataraman. KI-Systeme – darunter Large Language Models (LLM), Computer Vision und Inhaltsklassifizierer – bewerten Texte, Bilder, Videos und Audiodateien, um festzustellen, ob Inhalte gegen die Richtlinien der Plattform verstoßen. Ist dies der Fall, beispielsweise bei Hassreden, expliziten Bildern oder Drohungen, werden sie entweder automatisch blockiert oder zur Überprüfung durch einen Menschen weitergeleitet.
2. Nachmoderation
Die Nachmoderation ermöglicht es Nutzern, Inhalte in Echtzeit ohne vorherige Überprüfung zu veröffentlichen. Nachdem ein Nutzer etwas gepostet hat, überprüft ein Moderator den Inhalt. Mit dieser Methode können Nutzer Inhalte sehen, die gegen die Community-Richtlinien verstoßen, bevor ein Moderator sie bemerkt und blockiert. „So kann ein Nutzer Inhalte, die als Verstoß angesehen werden, anpassen, damit sie anschließend veröffentlicht werden können“, erklärt James.
KI-Systeme und/oder menschliche Moderatoren überprüfen diese Inhalte nach ihrer Veröffentlichung. Die KI automatisiert die Überprüfung, scannt neue Inhalte in Echtzeit und markiert potenziell schädliche Inhalte zur Überprüfung oder Entfernung.
3. Reaktive Moderation
Bei dieser Methode fungieren die Nutzer als Moderatoren, die Beiträge überprüfen, um festzustellen, ob sie den Community-Standards entsprechen oder gegen diese verstoßen. Damit können Inhalte vor der Moderation veröffentlicht werden. Bei dieser Methode wird die Moderation nicht von menschlichen Moderatoren übernommen, sondern durch die Community crowdsourced. „Die Community-Foren vieler Marken funktionieren nach diesem Prinzip“, sagt James.
Bei der reaktiven Moderation können laut Venkataraman Machine-Learning-Systeme eingehende Meldungen anhand der Schwere, der Art des Inhalts und der Nutzerhistorie priorisieren.
4. Verteilte Moderation
Dieser Ansatz ähnelt der reaktiven Moderation, bei der die Nutzer abstimmen, ob ein Beitrag den Community-Standards entspricht oder gegen diese verstößt. „Die KI fördert oder unterdrückt dann Inhalte basierend auf dem Abstimmungsverhalten und kann Manipulationsmuster oder Voreingenommenheit erkennen“, erläutert Venkataraman. Je mehr positive Stimmen ein Beitrag erhält, desto mehr Nutzer sehen ihn. Wenn genügend Nutzer den Beitrag als Verstoß melden, wird er mit größerer Wahrscheinlichkeit für andere gesperrt.
Dienste wie Reddit verwenden diese Methode, um die Community an den auf der Website geposteten Inhalten zu beteiligen.
5. Benutzermoderation
Bei dieser Methode können Nutzer Inhalte herausfiltern, die sie für unangemessen halten. Nur registrierte und zugelassene Nutzer können Inhalte moderieren. Wenn mehrere registrierte Nutzer einen Beitrag melden, wird er automatisch für andere Nutzer gesperrt.
Diese Systeme sind nur so schnell wie die Anzahl der Moderatoren, die für die Überprüfung und Veröffentlichung der Inhalte zur Verfügung stehen. Je mehr menschliche Moderatoren vorhanden sind, desto schneller können sie Inhalte überprüfen und veröffentlichen.
Die Nutzer legen selbst Filter oder Präferenzen fest, was sie sehen möchten und was nicht. Einige Systeme blenden Inhalte nach einer bestimmten Anzahl von Nutzermeldungen aus, wobei die zentrale Kontrolle begrenzt ist. KI kann aus dem Nutzerverhalten lernen und die Moderation auf der Grundlage individueller Präferenzen automatisieren, beispielsweise durch Stummschalten oder Keyword-Filter.
6. Hybride Moderation
„Generative KI (GenAI) ist nicht unfehlbar“, sagt James. „Sie kann Halluzinationen erzeugen, darunter falsche, irreführende oder unrichtige Informationen.“ Angesichts des Potenzials für KI-Halluzinationen benötigen Unternehmen weiterhin Menschen, die Inhalte überprüfen und sicherstellen, dass sie angemessen und korrekt sind.
Die hybride Kombination aus menschlicher und KI-Moderierung ermöglicht sowohl Geschwindigkeit als auch Genauigkeit. KI erledigt die Vor- und Nachbearbeitung schneller, und der menschliche Moderator hat das letzte Wort, um sicherzustellen, dass die Inhalte den Community-Richtlinien entsprechen und gleichzeitig logisch und korrekt sind.
Wie funktioniert die KI-Inhaltsmoderation?
„Die KI-Inhaltsmoderation ist ein Machine-Learning-Modell. Sie nutzt natürliche Sprachverarbeitung und integriert plattformspezifische Daten, um unangemessene nutzergenerierte Inhalte zu erkennen“, erläutert Venkataraman.
Ein KI-Moderationsdienst kann automatisch Moderationsentscheidungen treffen – Inhalte ablehnen, genehmigen oder eskalieren – und kontinuierlich aus seinen Entscheidungen lernen. Die Moderation von KI-generierten Inhalten ist komplex, und die Regeln und Richtlinien entwickeln sich parallel zum Tempo der Technologie weiter.
Mit der massiven Zunahme von KI-generierten Inhalten hat sich eine Mentalität entwickelt, Feuer mit Feuer zu bekämpfen, indem KI zur Moderation der von KI erstellten Inhalte eingesetzt wird.
„Mit generativer KI und einem LLM erstellte Inhalte sind denen von Menschen sehr ähnlich“, sagt Venkataraman. „In einem solchen Szenario wird die Anpassung der aktuellen Prozesse zur Moderation von Inhalten, der KI-Technologie sowie der Vertrauens- und Sicherheitspraktiken äußerst kritisch und wichtig.“
Darüber hinaus sind KI-generierte Inhalte leicht zu erstellen, und ihre Menge im Internet hat seit der öffentlichen Verfügbarkeit von KI-Content-Tools dramatisch zugenommen. Laut Venkataraman müssen menschliche Moderatoren nun darin geschult werden, riesige Mengen an KI-generierten Inhalten zu identifizieren, um sie auszusortieren und echte nutzergenerierte Inhalte hervorzuheben.
„Das Letzte, was eine Marke will, ist ein Community-Bereich, eine Website oder eine Plattform, die nur mit KI-generierten Inhalten gefüllt ist“, sagt Venkataraman.
Da GenAI viel Kontextverständnis und Anpassungsfähigkeit in die Inhaltserstellung bringt, müssen Moderations-Tools mit fortschrittlichen KI-Fähigkeiten ausgestattet werden, um Nichtkonformitäten zu erkennen. Dazu gehören das Trainieren der KI-Modelle mit größeren Datenmengen, die Validierung einer größeren Stichprobe von Inhalten durch Menschen, kollaborative Filterung mit Community-Feedback zu veröffentlichten Inhalten sowie kontinuierliches Lernen und Feedback.
KI-generierte Inhalte nehmen massiv zu, und Unternehmen müssen sich an das rasante Tempo anpassen. „Da Inhalte schneller erstellt werden können, steigt auch die Notwendigkeit, Inhalte schneller zu überprüfen und zu moderieren“, erklärt James. „Wenn man sich ausschließlich auf menschliche Moderatoren verlässt, kann es zu einem Rückstau bei der Überprüfung von Inhalten kommen, was die Erstellung von Inhalten verzögert. Die dadurch entstehenden Verzögerungen beeinträchtigen die Zusammenarbeit und führen letztendlich zu einer schlechten Benutzererfahrung.“
GenAI hat die Fähigkeiten von NLP bei der Moderation von Inhalten übertroffen. Multimodale LLM können beispielsweise Sarkasmus, verschlüsselte Sprache oder kulturelle Nuancen verstehen. Herkömmliche Tools zum Verstehen natürlicher Sprache weisen nach Angaben von Venkataraman in diesen Bereichen Defizite auf.
Hyperscaler wie Meta verwenden spezifische Deep-Learning-Modelle, Bilderkennung und multimodale KI, die Memes – also Text plus Bilder – verstehen. YouTube nutzt Mustererkennung und Objekt-/Bilderkennung, um täglich Milliarden von Videominuten zu scannen. Und TikTok setzt mehrsprachige, multimodale KI ein, um differenziertere Aufgaben wie die Erkennung kultureller Normen zu erledigen. Darüber hinaus können Videomoderations-Tools Videos oder Audiodateien auf urheberrechtlich geschützte oder unangemessene Inhalte scannen.
Wie KI die Moderation von Inhalten beeinflusst
Generative KI wird weiterhin die KI-Entwicklung anführen. Dies wird den Druck auf Unternehmen erhöhen, in gewissem Umfang in KI zu investieren, um wettbewerbsfähig zu bleiben, und damit die KI-gestützte Moderation von Inhalten zu einer unverzichtbaren Fähigkeit machen.
„KI wird nicht nur verstärkt zur Erstellung von Inhalten eingesetzt, sondern auch, um auf Beiträge in sozialen Medien zu reagieren“, prognostiziert James. „Dies erfordert, dass Unternehmen KI-gestützte Inhaltsmoderation einsetzen, um ihre bestehenden Prozesse nicht nur zu automatisieren, sondern auch zu modernisieren.“
KI kann eine schnellere und genauere Moderation mit weniger subjektiven Überprüfungen durch menschliche Moderatoren möglich machen. Und mit der Weiterentwicklung und Verbesserung der GenAI-Modelle wird die Inhaltsmoderation im Laufe der Zeit immer effektiver werden.
„Bereits jetzt kann [KI] automatisch hochpräzise Moderationsentscheidungen treffen. Durch kontinuierliches Lernen aus jeder Entscheidung können sich ihre Genauigkeit und Nützlichkeit nur weiterentwickeln“, sagt Venkataraman.
Einige Unternehmen setzen bereits KI-Bots für die Moderation von Inhalten ein. Im Jahr 2024 entließ der Social-Media-Riese TikTok 700 menschliche Moderatoren zugunsten von KI-Moderatoren.
Mit der massiven Zunahme von KI-generierten Inhalten hat sich eine Mentalität entwickelt, Feuer mit Feuer zu bekämpfen, indem KI zur Moderation der von KI erstellten Inhalte eingesetzt wird. „Da KI-Modelle immer schneller und genauer werden, wird die Zahl der menschlichen Moderatoren in den kommenden Jahren sicherlich sinken“, ist James überzeugt.