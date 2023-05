Die Existenz von generativer künstlicher Intelligenz (KI) ist nicht mehr übersehen. Von ChatGPT bis hin zu Bildergeneratoren wie Stable Diffusion hat sich die Branche aus dem Nichts heraus zu einer globalen Industrie gemausert. Aber nicht alle sind glücklich. Im Januar 2023 leitete das Bildlizenzierungsunternehmen Getty Images ein Gerichtsverfahren gegen die Eigentümer von Stable Diffusion ein, da diese aus ihrer Sicht gegen das Urheberrecht verstoßen haben.

Dies ist nur einer von immer mehr Fällen, die über die Zukunft der Technologie entscheiden können, darunter auch Klagen gegen die Bild-KI Midjourney und das von Microsoft unterstützte Flaggschiff OpenAI.

Diese juristischen Auseinandersetzungen betreffen jedoch nicht nur die Zukunft der generativen KI, sondern können sich auf die gesamte Zukunft der KI, die Erstellung von Inhalten und die Möglichkeit der Kontrolle persönlicher Daten auswirken.

Die Gründe für das Gerichtsverfahren von Getty Images sind auf den ersten Blick einfach. Getty Images erhebt als Bildlizenzierungsplattform eine Gebühr für den Zugang zu Bildern und deren Nutzung. Dieses System stellt ein großes Problem für generative KI-Systeme wie ChatGPT oder Stable Diffusion dar, die auf massenhaftes Datensammeln angewiesen sind, um ihre Systeme für die Beantwortung von Anfragen zu trainieren.

„Das Training dieser generativen KI-Modelle erfordert riesige Datenmengen“, sagt Laura Houston, Expertin für Urheberrecht und Partnerin bei der Anwaltskanzlei Slaughter and May. „Bei Text-Bild-Modellen müssen beispielsweise Hunderte von Millionen von Datenpunkten eingespeist werden, um dem Modell beizubringen, statistische Beziehungen zwischen den Wörtern und Bildern zu finden.“

Einfach ausgedrückt: Wenn eine künstliche Intelligenz herausfinden will, wie man ein Bild von zum Beispiel einem Huhn mit Zylinder erstellt, muss sie so viele Bilder von Hühnern und Zylindern studieren, wie sie kann. Die schiere Menge der Daten, die es braucht, um diese Fähigkeit zu erlernen, macht es unmöglich, die urheberrechtlich geschützten von den nicht urheberrechtlich geschützten Bildern sinnvoll zu trennen.

„Es besteht das Risiko der Verletzung geistigen Eigentums, das sich aus der Verwendung dieser Daten zum Erlernen des KI-Modells ergibt“, sagt sie. „Aber es stellt sich auch die Frage, was das KI-Modell als Ergebnis generiert und ob aufgrund der Daten, mit denen es trainiert wurde, die Ausgabe des Modells das geistige Eigentum der Eingabedaten verletzt.“

Das alles ist nicht nur eine intellektuelle Übung. Das Urheberrecht ist die Grundlage dafür, dass Künstler und Urheber von Inhalten ihre Werke schützen und kontrollieren können und somit Geld mit ihnen verdienen. Wenn die generative KI in der Lage ist, dieses Recht zu durchbrechen und ihre Arbeit zu nutzen, um ihre Systeme zu trainieren, kann sie davon profitieren und der Kulturindustrie weltweit schaden.

Aber die rechtlichen und moralischen Fragen hören nicht bei den Urheberrechtsgesetzen auf. Generative KI und große Sprachmodelle geraten zunehmend auch in die Schusslinie der Datenschutzbehörden. Die italienische Datenaufsichtsbehörde hat dem auf OpenAI basierenden Chatbot Replika bereits das Sammeln von Daten im Land untersagt.

„Öffentlich zugängliche Daten sind nach der EU-DSGVO und anderen Datenschutzgesetzen immer noch personenbezogene Daten, für deren Verarbeitung man also eine Rechtsgrundlage braucht“, sagt Datenschutzexperte Robert Bateman. „Das Problem ist, dass ich nicht weiß, inwieweit diese Unternehmen darüber nachgedacht haben... Ich denke, das ist eine Art rechtliche Zeitbombe.“

Die Verstöße gegen den Schutz personenbezogener Daten sind oft seltsam. Letzten Monat fand der Financial-Times-Journalist Dave Lee heraus, dass ChatGPT seine Nummer des Messenger-Dienstes Signal (die er auf seinem Twitter-Konto gepostet hatte) als eigene Nummer des Chatbots herausgab, und wurde daraufhin mit zufälligen Nachrichten überschwemmt. Laut Bateman fallen selbst solche öffentlich geposteten Daten unter die Datenschutzgesetze.

Abbildung 1: Wie die DSGVO personenbezogene Daten definiert.

„Es gibt so etwas wie eine kontextbezogene Privatsphäre“, sagt er. „Man kann seine Telefonnummer auf Twitter veröffentlichen und nicht erwarten, dass sie in einer Datenbank in China auftaucht. Dasselbe gilt für Sie, wenn Sie nicht unbedingt erwarten, dass sie von Chatbots ausgegeben wird. Die Datengenauigkeit ist einer der Grundsätze der EU-Datenschutz-Grundverordnung. Sie sind verpflichtet, dafür zu sorgen, dass personenbezogene Daten in Ihren Prozessen korrekt und aktuell sind. Doch große Sprachmodelle funktionieren anscheinend in 20 Prozent der Fälle nicht richtig. Auf dieser Grundlage werden viele ungenaue Informationen über Personen verbreitet.“

Verstöße feststellen Für den Datenschutz und den Schutz des geistigen Eigentums ist es ein großes Problem, genau zu ermitteln, ob eine generative KI tatsächlich gegen das Gesetz verstoßen hat. Die schiere Menge an Daten, die in diese Systeme eingespeist werden, macht es zu einem Problem, herauszufinden, was problematisch ist und was nicht. Gleichzeitig ist die Ausgabe nie eine absolute Kopie dessen, was eingespeist wurde, was es in den meisten Fällen von Urheberrechtsverletzungen, bei denen es in der Regel um direktes Kopieren geht, etwas schwieriger macht, eine Verletzung nachzuweisen. An diesem Punkt klaffen große Sprachmodelle wie ChatGPT und generative Bild-KI wie Stable Diffusion auseinander. Verzerrte, von KI generierte Bilder enthalten oft eindeutigere Hinweise auf die Daten, die zu ihrer Erstellung beigetragen haben, als Texte. Im Fall von Getty Images beispielsweise lassen sich viele der Beweisprobleme in diesem Bereich einfach dadurch lösen, dass das eigene Wasserzeichen angeblich auf vielen Bildern von Stable Diffusion auftaucht. „Ich denke, es ist wahrscheinlich kein Zufall, dass viele dieser ersten rechtlichen Anfechtungen in der Welt der Text-Bild-KI-Modelle auftauchen“, sagt Houston. Es ist auch kein Zufall, dass der Fall im Vereinigten Königreich eingereicht wurde. Im Gegensatz zum Vereinigten Königreich gibt es in den USA eine sogenannte Fair-Use-Verteidigung für Urheberrechtsverletzungen, die den großen KI-Entwicklern entgegenkommt. Im Vereinigten Königreich gibt es eine spezielle Ausnahmeregelung für Text und Data Mining im Rahmen des Urheberrechts, die jedoch nicht auf die kommerzielle Nutzung dieser Verstöße ausgedehnt ist, wie es bei den derzeitigen generativen KI-Systemen bereits der Fall ist. Abbildung 2: Was eine verantwortungsvolle KI auszeichnet. Nominell bedeutet das, dass persönliche Daten und Inhalte, die im Vereinigten Königreich erstellt wurden, sicherer sind. Das britische Parlament und das Amt für geistiges Eigentum der Regierung diskutieren bereits darüber, ob dieses Gesetz ausgeweitet werden soll, um den Schutz für die kommerzielle Verwertung von Inhalten anderer Leute aufzuheben. Letzten Endes müssen Gerichte und politische Entscheidungsträger gleichermaßen entscheiden, ob sie den Urheberrechtsschutz für die Schöpfer von Inhalten (und den Schutz der Privatsphäre für alle) wirtschaftlichen Interessen opfern, die der generative KI-Sektor wahrscheinlich liefern wird.