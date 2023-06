Voreingenommenheit oder Vorurteile (in Englisch: Bias) wird oft als ein menschliches Problem angesehen: das Produkt unvollkommener Gehirne und nicht vermeintlich unparteiischer KI-Systeme. Aber KI-Modelle spiegeln nicht nur menschliche Voreingenommenheit wider, sondern können diese auch massiv verstärken, und zwar auf eine Weise, die schwer zu erkennen und zu verhindern ist.

Laut einem IBM-Bericht aus dem Jahr 2022 nutzte bereits vor der Einführung von ChatGPT mehr als ein Drittel der Unternehmen künstliche Intelligenz (KI) und weitere 42 Prozent zogen dies in Erwägung. In der gleichen Umfrage gaben jedoch fast drei Viertel der Befragten an, dass sie keine Schritte unternommen haben, um unbeabsichtigte Verzerrungen oder Vorurteile in ihren Modellen zu reduzieren. Diese zunehmende Akzeptanz in Verbindung mit der mangelnden Aufmerksamkeit für algorithmische Vorurteile in der KI bereitet den Experten Sorgen.

„Im Moment haben wir Systeme, die auf der Grundlage von KI marginalisierte Menschen in den USA und in anderen Teilen der Welt massiv diskriminieren, und ich denke, dass wir das nicht wirklich angehen“, meint Jesse McCrosky, Principal Data Scientist und Leiter der Abteilung Nachhaltigkeit und sozialer Wandel bei Thoughtworks und Mitverfasser eines aktuellen Berichts der Mozilla Foundation über KI-Transparenz.

Da Regierungen und Unternehmen zunehmend KI einsetzen, um wichtige Entscheidungen zu treffen, ist eine verantwortungsvolle Entwicklung von KI ebenfalls von entscheidender Bedeutung. Algorithmische Voreingenommenheit zu verhindern bedeutet, Fairness und Diskriminierung während der gesamten Modellentwicklung zu berücksichtigen und dies auch nach dem Einsatz fortzusetzen.

Diese Ergebnisse unterstreichen, wie wichtig die menschliche Aufsicht durch verschiedene Teams während der gesamten Modellentwicklung ist. „Es geht nicht nur darum, dass die Daten selbst in irgendeiner Weise verfälscht sind“, sagt Santos. „Es hat auch mit den menschlichen Aspekten zu tun. Wir sind diejenigen, die die Daten sammeln. Wir sind diejenigen, die darüber entscheiden, was in die Entwicklung des Systems einfließt und was nicht.“

Santos verwies auf eine Arbeit der Forscher Joy Buolamwini und Timnit Gebru aus dem Jahr 2018, die herausfanden, dass Gesichtserkennungssysteme hellhäutige männliche Gesichter viel genauer identifizieren als dunkelhäutige weibliche Gesichter. Der Einsatz eines solchen Modells beispielsweise in einem selbstfahrenden Auto könnte katastrophale Folgen haben, so Santos: Würde die Software einen Fußgänger auf einem Zebrastreifen nicht erkennen, wäre das Leben dieser Person unmittelbar gefährdet.

Die Leistung eines KI-Systems hängt stark von den zugrundeliegenden Daten ab, die für das Training des Modells verwendet werden, was bedeutet, dass das endgültige Modell Verzerrungen in den Daten und der Art und Weise, wie sie gesammelt wurden, widerspiegelt. Ein Modell, das auf einem Datensatz mit unzureichenden Daten über Minderheitengruppen trainiert wurde, wird für diese Gruppen schlechtere Ergebnisse liefern.

Voreingenommenheit oder Vorurteile in KI-Systemen beginnt auf der Ebene der Daten. „Um bessere Systeme zu entwickeln, müssen wir uns auf die Datenqualität konzentrieren und diese zuerst verbessern, bevor wir Modelle in die Produktion schicken“, erklärt Miriam Seoane Santos, Entwicklerin bei YData und Forscherin für maschinelles Lernen (ML).

Den Umgang mit sensiblen Daten verstehen

Probleme ergeben sich auch im Zusammenhang mit Daten, die zur Verwendung in KI-Systemen gesammelt werden und Merkmale wie Ethnie, Alter und Geschlecht offenbaren.

Einige Teams, die sich Sorgen über algorithmische Vorurteile machen, könnten sich dafür entscheiden, diese Attribute zu entfernen oder zu verschleiern, in der Hoffnung, ihren Einfluss auf Modellentscheidungen zu minimieren. Aber solche Informationen einfach auszublenden oder zu ignorieren ist nicht unbedingt möglich oder wünschenswert.

In bestimmten Kontexten sind diese Daten notwendig, um ein genaues und ethisches Modell zu erstellen. Santos, der einen Hintergrund in biomedizinischer Technik hat, nannte als Beispiel ein Modell zur Vorhersage von Brustkrebs, für das Faktoren wie das Alter und die Krankengeschichte einer Person von großer Bedeutung sein können.

Wenn der Datensatz Kategorien wie zum Beispiel jüngere Frauen nicht angemessen repräsentiert, wird die Genauigkeit der Gesundheitsversorgung in Richtung einer der Untergruppen verzerrt sein. Das kann echte Konsequenzen für Menschen haben, die eine faire Behandlung oder eine personalisierte Behandlung wünschen.

Abbildung 1: Es klafft derzeit eine Lücke zwischen Erwartungen an KI-Systeme und deren realen Resultate. Hier muss an den Trainingsdaten gearbeitet werden.

Die Rolle von Proxies bei algorithmischen Vorurteilen

In anderen Fällen können scheinbar harmlose Merkmale die Diskriminierung aufrechterhalten, indem sie als Stellvertreter für Merkmale wie Ethnie und Geschlecht dienen. „In diesen KI- und ML-Modellen treten Ungleichheiten oft auf kontraintuitive Weise auf“, so Abdulkadir. „Es kann Merkmale geben, von denen man denkt, dass sie extrem problematisch sind, von denen sich aber herausstellt, dass sie nicht unbedingt zu Ungleichheiten führen, und umgekehrt.“

So kann beispielsweise die Erfassung von Informationen wie Adresse oder Postleitzahl für bestimmte Anwendungsfälle durchaus legitim sein. Aber diese Informationen können auch indirekt die Ethnie oder Gruppe einer Person aufgrund historischer Muster offenbaren, wie zum Beispiel der Diskriminierung aufgrund des Wohngebiets.

„In unseren Modellen gibt es keine Möglichkeit, diese Art von Postleitzahlinformationen zuzulassen, da sie ein eindeutiger Indikator für Bevölkerungsschicht und Einkommen sind", sagt Scott Zoldi, Chief Analytics Officer bei FICO. „Wir müssen einfach sagen: Ja, man könnte vielleicht ein besseres Modell erhalten, aber es würde die gleichen Verzerrungen verbreiten, die wir heute in der Gesellschaft haben.“

Einige Proxies sind vielleicht nicht so leicht zu erkennen. Abdulkadir nennt das Beispiel des Einkaufsverhaltens in Lebensmittelgeschäften, das manchmal in Kreditmodellen als Risikoindikator verwendet wird: Eine Person, die viel Geld in großen Supermärkten ausgibt, kauft möglicherweise häufig Artikel wie Alkohol und Lotterielose, was auf eine geringere Kreditwürdigkeit hindeuten könnte, so die Überlegung.

„Abgesehen davon, wie schwach dieser Zusammenhang sein mag“, so Abdulkadir, „bricht diese Art von Logik sehr schnell zusammen, wenn man sich die soziologische Geschichte ansieht, warum Menschen große Supermärkte besuchen.“

In Wirklichkeit haben Verbraucher, die in Gegenden mit wenig Infrastruktur leben, keine andere Wahl, als Lebensmittel und andere lebenswichtige Dinge in Großmärkten zu kaufen. Würden die Bewerber für ihre Ausgaben in diesen Geschäften bestraft, würde dies zu einer weiteren finanziellen Benachteiligung marginalisierter Personen führen.