peshkov - stock.adobe.com

Feature

8 Bereiche für die Verfeinerung generativer KI-Metriken

Wenn Sie den Erfolg von generativer KI messen möchten, sollten Sie sich im Vorfeld der Entwicklung auf Metriken einigen, welche die Leistung des Modells bewerten.

von

George Lawton

Zuletzt aktualisiert: 19 Okt. 2023

Generative KI-Modelle sind derzeit in aller Munde. Man kann sich leicht vom Hype anstecken lassen, ohne dass sie einen wirklichen Mehrwert liefern. Die einzige Möglichkeit, den Wert dieser aufstrebenden Modelle zu steigern, besteht darin, zu messen, was für Ihr Unternehmen wichtig ist, und die Ergebnisse zu verbessern.

Das Problem ist, dass es viele Möglichkeiten gibt, generative KI-Initiativen und -Modelle zu quantifizieren, von Leistung und Genauigkeit bis hin zu Präzision, Nutzen und ROI. Wenn Sie sich im Vorfeld auf die richtigen Metriken einigen, kann dies den Unterschied zwischen einem kostspieligen Experiment und einem Gewinn ausmachen.

„Unternehmen sollten sich auf zwei Arten von Kennzahlen für generative KI konzentrieren“, sagt Christine Livingston, Managing Director in der Emerging Technology Practice bei Protiviti. Die erste Art bezieht sich auf die Leistung des Modells selbst, wie Reaktionszeit, Präzision und Genauigkeit. Diese Messgrößen sollten auch im Zusammenhang mit den Anwendungsfällen und Fähigkeiten betrachtet werden, die ein Modell benötigt.

Die zweite Art von Metrik ist der gelieferte Wert. „Es ist wichtig, einen voraussichtlichen Maßstab für generative KI festzulegen, zum Beispiel die Verringerung des Zeit- und Arbeitsaufwands für die Ausführung von Aufgaben, die Erhöhung des Durchsatzes oder die Steigerung der Nachfrage“, erläutert sie. Diese Metriken geben dem Unternehmen Aufschluss darüber, wo und wann es weiter in generative KI-Initiativen investieren sollte, und stellen sicher, dass die Modelle im Laufe der Zeit weiterhin einen Mehrwert liefern.

Anpassen der Metriken für spezifische Anwendungsfälle

„Die Quantifizierung der Leistung von generativen KI-Modellen kann aufgrund der Vielzahl von Anwendungsfällen eine Herausforderung darstellen“, sagt Buddhi Jayatilleke, Chief Data Scientist bei Sapia, einer KI-Plattform für das Personalwesen. Und die Leistung von Large Language Models (LLM) kann über den gesamten Entwicklungslebenszyklus hinweg auf unterschiedliche Weise definiert werden. Verschiedene Metriken bieten mehr Wert für das Pre-Training, die Feinabstimmung und das bestärkende Lernen durch menschliches Feedback.

„Der Goldstandard für die Bewertung von generativen Modellen ist oft die Beurteilung durch den Menschen, aber das kann kostspielig und langsam sein, vor allem im großen Maßstab“, sagt Jayatilleke. Ein Ansatz besteht darin, die menschliche Bewertung sparsam und strategisch einzusetzen, vielleicht um automatisierte Metriken zu validieren und zu kalibrieren. Es ist auch hilfreich, Feedback-Schleifen einzurichten, um von den Nutzern zu lernen, und sich über die neuesten Forschungsergebnisse zu neuen Bewertungs-Benchmark-Datensätzen auf dem Laufenden zu halten, um die automatisierten Tests zu ergänzen.

„Die Metriken können je nach Funktion und angebotenem Service variieren“, erläutert Todd Johnson, President der U.S. Enterprise Applications bei der Nexer Group, einem IT-Dienstleistungs- und Beratungsunternehmen. In Szenarien für den Kundenservice können traditionelle Metriken wie Kundenbindung, Kundenzufriedenheit und Net Promoter Score verwendet werden. Produktivitätsszenarien können schwieriger direkt zu messen sein. So muss beispielsweise die Rate zur Erledigung von Aufgaben gegenüber der Arbeitsqualität abgewogen werden.

Johnson empfiehlt, bei der Einführung neuer Tools oder Modelle vorsichtig vorzugehen und Testgruppen einzurichten, um eine Ausgangsbasis zu schaffen und verschiedene Tools zu bewerten. „Letztendlich wird es immer noch eine menschliche Entscheidung sein, ob diese Tools unsere Arbeit verbessern oder nicht“, sagt er.

Bereiche, die mit generativen KI-Metriken bewertet werden sollten

Hier sind acht Bereiche – und einige ihrer Metriken und Benchmarks – die verfolgt und bewertet werden sollten, um den Erfolg von generativen KI-Programmen und -Projekten in Unternehmen zu messen.

1. ROI

Aus finanzieller Sicht hilft die Messung des ROI dabei festzustellen, ob und wie ein Programm oder Projekt für maschinelles Lernen (ML) einen sinnvollen Wert liefert. Dieser Wert kann sich aus verschiedenen Vorteilen ergeben, zum Beispiel aus der Steigerung von Umsatz, Gewinn, Produktivität oder Kundenbindung.

„Viele generative KI-Projekte in Unternehmen befinden sich noch im Forschungsstadium, so dass es schwierig ist, ihren genauen Wert vorherzusagen“, sagt Matan Libis, Vice President of Products bei SQream, einer Datenaufbereitungsplattform für maschinelles Lernen.

Libis empfiehlt, klare KPIs für den Erfolg festzulegen und ein ausreichendes Budget für die Forschung bereitzustellen.

2. Erreichte Ziele

Laut Israel Krush, CEO und Mitbegründer der Conversational-KI-Plattform Hyro, ist die Messung der Zielerfüllung, die widerspiegelt, wie viele greifbare und wünschenswerte Geschäftsergebnisse ein Modell erzielt, eine weitere Möglichkeit, die Leistungen generativer KI zu bewerten.

Bei einer App, die Patienten hilft, Arzttermine zu vereinbaren, misst Hyro beispielsweise, wie viele solcher Termine die App von Anfang bis Ende abgewickelt hat. Die Entwicklung einer neuen Messgröße für jeden Anwendungsfall kann zeigen, wann sie einen Mehrwert liefert.

„Es war noch nie so einfach, einen unterhaltsamen und ansprechenden Chatbot in Ihre Website einzubauen“, sagt Krush, „Aber wenn Sie nicht wirklich verstehen, wozu er da ist, was nützt er dann?“

3. Zuverlässigkeit

Eine weitere empirische Methode, um den Erfolg von generativen KI-Systemen in Unternehmen zu messen, ist Zuverlässigkeit, die die Ähnlichkeit zwischen dem generierten Output und den realen Daten bewertet. Ein hoher Wert für die Wiedergabezuverlässigkeit zeigt an, dass das Modell in der Lage ist, realistische und genaue Ergebnisse zu liefern. Libis erklärt, dass dieser Aspekt entscheidend für das Vertrauen in diese Technologie ist, da sich sowohl Unternehmen als auch ihre Kunden darauf verlassen, dass diese Modelle sie zuverlässig bedienen und Fehlinterpretationen vermeiden.

Es ist jedoch nicht immer möglich, gleichzeitig einen maximalen ROI und eine hohe Zuverlässigkeit zu erzielen. Manchmal kann die Verbesserung des einen auf Kosten des anderen gehen. Libis hat die Erfahrung gemacht, dass es hilfreich ist, ein gemeinsames Verständnis für die spezifischen Anforderungen der Anwendung zu entwickeln, um auf der Grundlage der Projektziele und -prioritäten die richtige Balance zwischen ROI und Originaltreue zu finden.

4. Aufgabenleistung

„Es ist auch hilfreich, die Aufgabenleistung zu bewerten“, sagt Jayatilleke. In diesem Bereich geht es darum, wie gut das Modell auf einen bestimmten Prompt reagiert, wie zum Beispiel das Zusammenfassen eines Textes, das Lösen eines mathematischen Problems oder die Durchführung von Schlussfolgerungen mit gesundem Menschenverstand. Ein aufgabenspezifischer Benchmark-Datensatz und die dazugehörigen Metriken können dabei unterstützen, zu bewerten, wie gut das Modell im Vergleich zum Benchmark abschneidet.

Jayatilleke verwendet häufig den Massive Multitask Language Understanding (MMLU) Benchmark, der Fächer aus den Bereichen MINT, Geistes- und Sozialwissenschaften und mehr abdeckt, von den Grundlagen bis zum fortgeschrittenen professionellen Niveau. Zu den weiteren relevanten Metriken gehören:

Konsistenz der Generierung, die misst, ob ähnliche Prompts im gleichen Kontext zu nahezu semantisch ähnlichen Antworten führen können.
Prompt-Sensitivität, die misst, wie detailliert ein Prompt sein muss, um eine optimale Antwort vom LLM zu erhalten.

5. Sicherheit

Sicherheitsmetriken unterstützen dabei, Risiken wie ethische Bedenken bezüglich generativer KI, Wahrhaftigkeit, Toxizität und Sicherheit zu testen. Dies kann die Messung der Prävalenz von rassistisch motivierten Antworten, KI-Halluzinationen oder das Durchsickern vertraulicher Informationen umfassen.

Benchmarks wie TruthfulQA können die Tests durch menschliche Experten ergänzen. Jayatilleke zufolge ist es am besten, mehrere automatisierte Tests durchzuführen, die verschiedene Aspekte abdecken. Da sich jedoch die Trainingsdaten und -parameter ändern, sind diese Benchmarks möglicherweise nicht in der Lage, die neuen Erkenntnisse des Modells zu erfassen.

6. Persönlichkeit

Bei Sapia hat das Team von Jayatilleke eigene Metriken entwickelt, um die von den verschiedenen Versionen der OpenAI GPT-Modelle projizierte Persönlichkeit zu bewerten. Ihre Metriken bezogen sich auf Persönlichkeitsdimensionen oder die emotionale Intelligenz der generativen KI-Modelle, die Chatbots antreiben, um deren Verhalten besser zu verstehen und zu vergleichen. Sie fanden signifikante Unterschiede zwischen GPT-2, ChatGPT – das auf GPT-3.5 aufbaut – und GPT-4. Diese Untersuchung half ihnen dabei, eine Basislinie zu erstellen, anhand derer sie bewerten können, wie sich weitere Anpassungen dieser Modelle auf die Interaktionen mit den Benutzern auswirken.

7. Genauigkeit

Die Genauigkeit misst, wie gut die Vorhersagen oder Ergebnisse eines Modells mit den gewünschten Ergebnissen übereinstimmen, was nicht immer leicht zu beurteilen ist. „LLMs haben im Allgemeinen ein Genauigkeitsproblem, und niemand ist bisher in der Lage, eine Standardmethode zur Bewertung der Qualität eines LLMs in dieser Hinsicht zu bestimmen“, sagt Yonatan Geifman, CEO und Mitbegründer von Deci, einer Deep-Learning-Entwicklungsplattform.

In Bereichen wie der Codierung ist es oft einfacher, die Genauigkeit anhand von Benchmarks wie der HumanEval-Datenbank zu bewerten. In anderen Bereichen stehen mehrere Bewertungsmethoden zur Auswahl, darunter:

Perplexität ist eine Metrik, die die Fähigkeit eines Sprachmodells bewertet, das nächste Wort in einer Wortfolge vorherzusagen.
Inception Score, oder IS, ist ein mathematischer Algorithmus, der die Qualität von generativen KI-Bildern misst.
Die Fréchet Inception Distance (FID) analysiert Bilder, die von einem Generative Adversarial Network (GAN) erzeugt wurden, auf reale Darstellung und Vielfalt.
Precision ist eine Metrik, die die Anzahl der richtigen Vorhersagen eines generativen KI-Modells misst.
Recall gibt das Verhältnis von positiven Proben, die von einem Modell als positiv klassifiziert wurden, zur Gesamtzahl der generierten positiven Proben an.
Der F1-Score misst die Genauigkeit eines KI-Modells anhand der Faktoren Präzision und Recall.
Bilingual evaluation understudy, oder BLEU, ist eine Metrik zur automatischen Bewertung maschinell übersetzter Texte im Vergleich zu Referenztexten.
Recall-oriented understudy for gisting evaluation, oder ROUGE, misst die Qualität einer maschinell übersetzten Zusammenfassung im Vergleich zu einer von einem Menschen erstellten Zusammenfassung.
Metric for evaluation of translation with explicit ordering, oder METEOR, bewertet maschinelle Übersetzungen auf der Grundlage von Wort-zu-Wort-Matching im Vergleich zu einer Referenzübersetzung.
Consensus-based image description evaluation (CIDEr) vergleicht einen maschinell erstellten Satz mit von Menschen erstellten Informationen, von denen bekannt ist, dass sie real und wahr sind.
Bei der manuellen Bewertung vergleicht ein Mensch die maschinell erstellten Ergebnisse von Fall zu Fall.

Es ist auch üblich, die Benutzer zu bitten, die Anzahl der Likes oder Vorschläge zu zählen, die sie akzeptieren.

Die größere Herausforderung liegt laut Geifman nicht in der Wahl der zu verwendenden Metriken, sondern in der Auswahl der geeigneten Bewertungsdatensätze, auf die diese Metriken angewendet werden sollen. In einigen der am häufigsten für die Bewertung verwendeten Datensätze werden Ungenauigkeiten entdeckt. Es gibt auch Bedenken, dass große Modelle wie GPT-4 während des Trainings diesen Bewertungsdatensätzen ausgesetzt waren und daher nicht als objektiver Bewertungsdatensatz verwendet werden können.

8. Inferenzgeschwindigkeit

Die Inferenzgeschwindigkeit quantifiziert die Leistung des Modells in Bezug auf Geschwindigkeit und Effizienz zur Laufzeit.

Die Latenz des Modells wird in der Regel in Iterationen pro Sekunde gemessen, was sich direkt auf die Inferenzkosten des Modells auswirkt. Eine geringere Latenz führt zu geringeren Rechenkosten, einem kleineren CO2-Fußabdruck und einem verbesserten Gesamterlebnis für den Benutzer. „Es ist wichtig, die Modellgeschwindigkeit schon früh im Prozess zu berücksichtigen, da eine langsame Inferenzleistung ein großes Hindernis für die Skalierbarkeit und die betriebliche Kosteneffizienz darstellen kann“, erläutert Geifman.

Herausforderungen bei der Einrichtung eines Metrikprogramms

Bei der Einrichtung eines Metrikprogramms für generative KI-Modelle können viele Herausforderungen auftreten. Laut Doug Ross, Vice President und Head of Insights and Data bei Sogeti, das zu Capgemini gehört, gehören zu den größten Herausforderungen:

Subjektivität

Generative Modelle erzeugen oft Ergebnisse, wie zum Beispiel Texte oder Bilder, die von Menschen konsumiert und interpretiert werden sollen. Die menschliche Bewertung ist subjektiv, und Einzelpersonen können sich über die Qualität des Ergebnisses uneinig sein. Dies kann es schwierig machen, einen Maßstab oder eine Basislinie für die Bewertung festzulegen. Eine Möglichkeit, dieses Problem zu lösen, ist das Crowdsourcing, bei dem mehrere menschliche Bewerter die Ergebnisse bewerten.

Verzerrung

Modelle können Verzerrungen in den Trainingsdaten oder -methoden nachahmen oder sogar verstärken, was ethische Konsequenzen haben kann. Die Überwachung auf Verzerrungen ist ein wichtiger Schritt, und vielfältigere Trainingsdatensätze sind hilfreich. Ein Bericht des Capgemini Research Institute aus dem Jahr 2023 mit dem Titel Harnessing the Value of Generative AI: Top Use Cases Across Industries (PDF) ergab, dass 51 Prozent der befragten Unternehmen mangelnde Klarheit über die zugrunde liegenden Trainingsdaten als eine Herausforderung nannten, die die Implementierung generativer KI behindert.

Skalierbarkeit

Wenn Modelle und Datensätze wachsen, können auch die Rechenleistung und die damit verbundenen Kosten steigen. Effizienz- und Finanzkennzahlen können bei der Planung und Bewältigung von Skalierbarkeitsproblemen unterstützen.

Angriffe

Einige Modelle sind anfällig für Angriffe, wie zum Beispiel Jailbreaks, die Informationen ausspähen oder unerwünschte Ergebnisse liefern. Red-Team-Tests von Modellen sind hilfreich, um festzustellen, ob zusätzliche Sicherheitsvorkehrungen erforderlich sind.

Auswahl der richtigen Metriken

Angesichts der verschiedenen Möglichkeiten, die Genauigkeit, Leistung und Effizienz eines Modells zu messen, ist die Wahl der richtigen Kennzahlen ein Schlüsselfaktor für den Produktionseinsatz.

Überwachung

Kontinuierliche Überprüfungen der Modellausgabe tragen dazu bei, dass das Modell nicht abdriftet oder dass sich die Antworten im Laufe der Zeit nicht ändern. Dies kann durch automatisierte Tests und menschliche Aufsicht geschehen.

Die Zukunft der generativen KI-Metriken

Die Werkzeuge zur Bewertung von Leistung und Nutzen sind noch in Arbeit. Experten erwarten, dass es an vielen Fronten Fortschritte geben wird.

Wahrhaftigkeit kann eine schwierige, wenn nicht gar unmögliche Metrik für LLMs sein, hat Livingston beobachtet. Sie prognostiziert bedeutende Entwicklungen bei der Fähigkeit, die Authentizität und Wahrhaftigkeit von Antworten und Ergebnissen zu überwachen und zu messen, um Abweichungen und Verzerrungen zu ermitteln.

Libis erwartet weitere Fortschritte bei den Metriken für Erklärbarkeit und Interpretierbarkeit, während Jayatilleke glaubt, dass es an der Zeit ist, bessere Metriken zur Messung des CO2-Fußabdrucks beim Training generativer Modelle in Betracht zu ziehen. Es wird auch wichtig sein, Metriken zu entwickeln, um die Kontamination zukünftiger Trainingsdatensätze mit KI-generierten Inhalten zu bewerten, wenn diese allgegenwärtig werden.

Johnson prognostiziert, dass zusätzliche Telemetriedaten in generative KI-Tools integriert werden, um detaillierte Daten darüber zu erhalten, wie das KI-Modell verwendet wird. Sie werden auch Aufschluss über die Leistung des Modells geben und Hinweise darauf liefern, wo es noch Verbesserungsbedarf gibt.

Ross erwartet verbesserte Leistungsbewertungsmetriken, die die Modellgenauigkeit und die allgemeine Leistung besser erfassen. Zu den vielversprechenden neuen Metriken gehören Präzision und Wiedererkennungswert, FID+, eine Verbesserung des Fréchet Inception Distance Algorithmus, und Learned Perceptual Image Patch Similarity (LPIPS).

„Eine Kombination aus besseren Evaluierungstechniken, vielfältigeren Trainingsdatensätzen und transparenten Architekturen wird wahrscheinlich zu den Richtungen gehören, die bei der Verbesserung objektiver Messgrößen für die Modellleistung zum Tragen kommen“, so Ross.