Who is Danny - stock.adobe.com

Wie Mensch und KI im Testprozess zusammenarbeiten

Qualität und Sicherheit von KI-Anwendungen verlangen ein Zusammenspiel aus Technologie, Datenvielfalt und menschlichem Urteil – vor und nach dem Launch.

Der KI-Boom hat mittlerweile so gut wie jede Branche erreicht und beim Versuch, die Anwendungsmöglichkeiten auszuschöpfen, wird fast jedes Programm um KI-Funktionen erweitert. Auch in ihre Apps integrieren Unternehmen weltweit KI-Funktionen, um wettbewerbsfähig zu bleiben und den steigenden Erwartungen der Nutzer gerecht zu werden.

Doch viele dieser Anwendungen scheitern: unvorhersehbare Ergebnisse, Schwachstellen oder Enttäuschung der Nutzer sind häufige Probleme. Der Schlüssel zur erfolgreichen Implementierung von KI liegt in einem ausgewogenen Zusammenspiel aus Technologie und menschlicher Expertise, insbesondere im Testprozess.

Die Herausforderungen generativer KI

Das Testen von KI-Anwendungen bringt andere Herausforderungen als klassische IT-Systeme mit sich, auf die viele Unternehmen noch nicht eingestellt sind. Besonders bei generativer KI (GenAI). Im Gegensatz zu traditionellen Systemen, die deterministisch arbeiten und somit bei gleichen Eingaben stets die gleichen Ergebnisse liefern, ist generative KI probabilistisch. Das bedeutet, dass ihre Ergebnisse eine gewisse Unvorhersehbarkeit beinhalten. Diese Unvorhersehbarkeit erschwert es Unternehmen, die Qualität und Sicherheit ihrer KI-Systeme zu garantieren und macht umfassende Tests der Anwendungen daher unbedingt notwendig.

Denn nur durch gründliches Testen kann sichergestellt werden, dass KI-Systeme sicher eingesetzt werden können und Anwendern qualitativ hochwertige Ergebnisse und keine Halluzinationen liefern. Das ist jedoch oft schwieriger als gedacht und benötigt einen gut strukturierten Testplan, damit die KI-Systeme wie beabsichtigt funktionieren.

Die Rolle menschlicher Expertise im KI-Testprozess

Eine effektive Teststrategie basiert auf den drei Säulen Mensch, Prozess und Technologie. Auch wenn der Aspekt Mensch erstmal überraschen mag, gibt es fünf zentrale Bereiche, in denen menschliche Expertise entscheidend zur Verbesserung der Qualität von KI-Systemen beiträgt:

  1. Datenerfassung: Hochwertige und diversifizierte Daten, die aus unterschiedlichen Quellen stammen, sind die Grundlage jedes KI-Systems. Menschliche Datensätze, die zuverlässig sind und Vielfalt aufweisen, sind wesentlich, um die Leistungsfähigkeit der Modelle sicherzustellen.
  2. Modell-Feinabstimmung: Durch gezielte Daten kann die Leistungsfähigkeit von Large Language Models (LLM) erheblich verbessert werden. Eine Kombination aus öffentlichen, proprietären und synthetischen Daten, die von Unternehmen häufig genutzt werden, reicht oft nicht aus, um alle Lücken zu schließen. Hier ist menschliche Expertise gefragt.
  3. Modellbewertung: Nach dem Training müssen Modelle kontinuierlich bewertet werden, um Schwächen und Verbesserungsmöglichkeiten zu identifizieren. Hierbei spielen menschliches Urteilsvermögen und subjektives Feedback eine wichtige Rolle, um Aspekte wie Genauigkeit, Relevanz und Tonalität sicherzustellen.
  4. Red Teaming: Ein kritischer Aspekt, der oft vernachlässigt wird, ist die Identifizierung von Schwachstellen durch Simulation eines Gegners vor dem Go-live aufzudecken. Red Teaming unterstützt dabei, potenzielle Sicherheitsrisiken zu minimieren und Fehlerquellen zu erkennen, die bei standardisierten Tests kaum auffallen.
  5. Release-Tests und Monitoring: Umfassende Tests unter realen Bedingungen vor und nach dem Launch sind dringend notwendig, weil nur so die Perspektiven realer Nutzer unter echten Bedingungen eingeholt werden können. Damit lässt sich sicherstellen, dass die Anwendung auch langfristig stabil und sicher bleibt.

Operationalisierung von KI: Ein kontinuierlicher Zyklus

Der Erfolg von KI-Systemen erfordert einen kontinuierlichen Zyklus aus Testen, Lernen und Verbesserung. Ein integrativer Ansatz, bei dem Testverfahren in den gesamten Softwareentwicklungslebenszyklus eingebettet werden, hilft dabei. Unternehmen sollten zudem qualitative und risikoorientierte Framework einsetzen, um sicherzustellen, dass die KI-Anwendungen den höchsten Standards entsprechen.

Chris Sheehan, Applause

„Das Testen von KI-Anwendungen bringt andere Herausforderungen als klassische IT-Systeme mit sich, auf die viele Unternehmen noch nicht eingestellt sind.“

Chris Sheehan, Applause

Um auch langfristig die Qualität und Sicherheit der KI zu garantieren, sind umfassende Pre-Launch-Tests sowie kontinuierliche Tests nach dem Go-live entscheidend. Denn Modelle können im Laufe der Zeit an Leistung verlieren, insbesondere wenn neue Daten eingespielt werden oder sich Nutzeranforderungen ändern. Vor allem bei komplexen Anwendungsfällen wie zum Beispiel im Gesundheitswesen ist menschliche Expertise, aufgrund des erforderlichen Genauigkeitsgrads, unerlässlich.

Mensch und Maschine im Einklang

Obwohl Automatisierung ein zentrales Element im KI-Testprozess ist, bleibt menschliche Expertise weiterhin erforderlich. Denn einige Schwächen und Risiken generativer KI-Systeme lassen sich nur durch Menschen aufdecken und verbessern. Unternehmen, die in jeder Phase des KI-Entwicklungsprozesses auf die Kombination aus menschlichem Wissen und technologischen Lösungen setzen, können das volle Potenzial einer KI nutzen, die qualitativ hochwertige Ergebnisse liefert.

Über den Autor:
Als EVP, Hightech und KI bei Applause ist Chris Sheehan für die gesamte strategische Ausrichtung und Performance von Applause im Hightech-Sektor sowie in der KI-Praxis verantwortlich. Zuvor war er unter anderem in den Bereichen Softwarebereitstellung, Produktstrategie, Kundenerfolg und der Leitung des strategischen Kundensegments in Nordamerika tätig.

 

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Softwareentwicklung