peopleimages.com - stock.adobe.c

Qualitätssicherung von Software: Wie testen wir KI?

Generative KI ist ein nützliches Werkzeug, das bereits die Softwarequalitätssicherung unterstützt. Doch wie lässt sich die Qualität von Software sicherstellen, die selbst KI nutzt?

Die IT-Branche befindet sich inmitten einer tiefgreifenden Transformation. Laut Capgemini Research nutzen heute schon fast die Hälfte der Entwickler generative KI, in zwei Jahren sollen es 85 Prozent sein.

Die Motive sind klar: eine bessere Softwarequalität und eine Zeitersparnis von bis zu 35 Prozent bei bestimmten Aufgaben. Dieses immense Potenzial gilt in gleichem Maße für die Qualitätssicherung (QS). Doch wie lässt sich der Hype in belastbare, produktive Prozesse überführen? Die Antwort liegt in einem zweigeteilten Ansatz, der sowohl die Anwendung von KI im Testing als auch die Qualitätssicherung der KI selbst umfasst.

Säule 1: AI for Quality Assurance – wie KI Testteams heute unterstützt

Der Einsatz von KI in der Qualitätssicherung ist längst keine Zukunftsmusik mehr. Er zielt darauf ab, die Effizienz zu steigern und menschliche Experten von repetitiven Aufgaben zu entlasten, damit sie sich auf komplexe, strategische Herausforderungen konzentrieren können.

Ein klassischer Flaschenhals ist der manuelle Entwurf von Testfällen. Basierend auf einer textuellen Anforderung kann generative KI heute innerhalb von Minuten Vorschläge für Testfälle inklusive Dokumentation und erwarteten Ergebnissen erstellen. Dieser Prozess, der früher Stunden dauerte, wird so massiv beschleunigt. Menschliche Tester behalten dabei die volle Kontrolle, indem sie die Vorschläge validieren und anpassen.

Moderne QS-Plattformen bieten verschiedene Stufen der KI-Unterstützung. Sogenannte Copilots agieren als intelligente Assistenten, ähnlich einem Chatbot. Sie unterstützen beim Onboarding neuer Mitarbeiter, indem sie Funktionen erklären, oder beschleunigen die Analyse von Tausenden nächtlichen Testläufen, indem sie die kritischsten Fehler zusammenfassen. Ein Agent geht noch einen Schritt weiter. Er trifft eigene Entscheidungen, um eine Aufgabe zu erledigen. Im Co-assisted-Modus fragt der Agent nach jedem Schritt den menschlichen Nutzer um Bestätigung, während er im Autonomous-Modus versucht, einen kompletten Testfall eigenständig zu erstellen.

Schon seit 2019 werden zudem maschinell lernende Modelle genutzt, um Testautomatisierung robuster zu machen. Durch das Training mit Zehntausenden Screenshots können solche Systeme zum Beispiel Änderungen an der Benutzeroberfläche erkennen und Testfälle automatisch selbstheilen, anstatt bei kleinen Anpassungen wie einem geänderten Label fehlzuschlagen.

Doch der wahre Effizienzgewinn entsteht erst, wenn diese isolierten KI-Agenten miteinander kommunizieren. Hier kommen offene Standards wie das Model Context Protocol (MCP) ins Spiel. MCP schafft eine gemeinsame Sprache für spezialisierte KI-Agenten und ermöglicht es, diese zu durchgängigen, automatisierten Workflows zu verbinden. So kann ein Agent beispielsweise eine Anforderung aus einem Jira-Ticket automatisch in Testfälle überführen, ein zweiter erzeugt die passenden Testdaten und ein dritter stößt die Ausführung an. Aus einer Ansammlung einzelner KI-Funktionen wird so eine orchestrierte und nachvollziehbare Prozesskette.

Säule 2: Quality Assurance for AI – die neue Herausforderung, KI selbst zu testen

Während KI das Testen erleichtert, schafft sie gleichzeitig eine neue, komplexe Herausforderung: Wie stellt man die Qualität von Anwendungen sicher, die selbst nicht-deterministische KI-Funktionen nutzen? Ein falsches Ergebnis bei einer privaten ChatGPT-Anfrage ist ärgerlich; in einem geschäftskritischen Prozess ist es inakzeptabel. Dies erfordert neue QS-Methoden.

Ein einzelner Testlauf reicht hier in vielen Fällen nicht mehr aus. Ein neuer Ansatz ist das probabilistische Testen. Hierbei führt man denselben Testfall automatisiert zehnmal aus. Gilt das Ergebnis in acht von zehn Fällen als korrekt, wird der Test als bestanden gewertet. Diese Methode macht die Halluzinationsgefahr von KI handhabbar.

Zudem erfordert der Wandel hin zu KI-gesteuerten Benutzeroberflächen eine grundlegende Erweiterung der Teststrategie. Bisher wurde geprüft, ob eine strukturierte Eingabe des Nutzers die korrekte technische Aktion im Hintergrund auslöst. Bei Anwendungen mit KI-Funktionen kommt nun eine neue, kritische Ebene hinzu: die Interpretation der unstrukturierten Nutzereingabe – Text oder Audio – in ein Chatfenster.

Die Qualitätssicherung muss daher nun zwei Kernfragen validieren: Erstens, versteht die KI die Absicht und den Kontext der natürlichen Spracheingabe korrekt? Zweitens, übersetzt sie diese verstandene Absicht auch in den richtigen technischen Befehl an die Programmierschnittstellen (APIs) des Backends? Der Fokus verschiebt sich somit von der reinen Validierung eines vorhersehbaren Pfades hin zur zusätzlichen Überprüfung dieser neuen, intelligenten Übersetzungsschicht.

Roman Zednik, Tricentis

„Eine KI, die eine andere KI testet, ist – zumindest auf dem aktuellen Entwicklungsstand – keine zielführende Lösung. Die Verifikation durch einen erfahrenen menschlichen Tester bleibt, gerade bei komplexen Szenarien, das entscheidende letzte Glied in der Kette. Die KI beschleunigt den Prozess, doch der Mensch sichert die Qualität.“

Roman Zednik, Tricentis

Bei all dem Fortschritt gilt jedoch: Eine KI, die eine andere KI testet, ist – zumindest auf dem aktuellen Entwicklungsstand – keine zielführende Lösung. Die Verifikation durch einen erfahrenen menschlichen Tester bleibt, gerade bei komplexen Szenarien, das entscheidende letzte Glied in der Kette. Die KI beschleunigt den Prozess, doch der Mensch sichert die Qualität.

Fazit: den dualen Wandel meistern

Die Integration von KI in die Qualitätssicherung hat zwei Seiten. Unternehmen müssen lernen, KI als Werkzeug zur Effizienzsteigerung zu nutzen und gleichzeitig Methoden entwickeln, um KI-gesteuerte Anwendungen zuverlässig zu testen. Ein isolierter Ansatz, bei dem einzelne Teams versuchen, diese Komplexität selbst zu lösen, ist zum Scheitern verurteilt.

Der Erfolg liegt in einer integrierten Strategie, die Mensch und Maschine kombiniert und die auf eine klare Governance baut. Anstatt das Rad neu zu erfinden, können Unternehmen hier auf die Expertise und die Plattformen spezialisierter und etablierter Anbieter zurückgreifen. Diese leisten Pionierarbeit in der Entwicklung und gewährleisten durch bereits integrierte Standards wie MCP die nötige Sicherheit und Nachvollziehbarkeit. Auf diese Weise können Unternehmen im Bereich Quality Assurance aus dem KI-Hype einen nachhaltigen und geschäftsrelevanten Wettbewerbsvorteil machen.

Über den Autor:
In seiner Rolle als Field CTO von Tricentis arbeitet Roman Zednik eng mit Kunden und Partnern zusammen, um technische Produktinnovationen voranzutreiben. Zudem fungiert er als Sprecher und Evangelist auf Events und Branchenveranstaltungen und unterstützt den strategischen Vertrieb. Zuvor leitete er über neun Jahre lang die internationale Presales Solution Architects Organisation bei Tricentis.

Begonnen hat er seine berufliche Laufbahn im Software Engineering und war mehr als sechs Jahre im Finanzbereich tätig. Danach wechselte er in verschiedene Rollen in Presales, Consulting, Sales und Management bei Unternehmen wie Sterling Software, Mercury Interactive und Hewlett-Packard Software. Roman Zednik lebt und arbeitet in Wien, Österreich, wo sich auch der EMEA-Hauptsitz von Tricentis befindet.

 

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Softwareentwicklung