Alexander - stock.adobe.com

Feature

Wie MLCommons mit Benchmarking KI-Systeme vergleicht

MLCommons entwickelt und nutzt Benchmarks der MLPerf-Suite, um KI-Systeme zu bewerten. Gemessen werden Leistung und Effizienz verschiedener Systeme unter standardisierten Bedingungen.

von

Julia Reber, TechTarget

Zuletzt aktualisiert:02 Mai 2025

Das Konsortium MLCommons nutzt unter dem Gesichtspunkt der offenen Zusammenarbeit zwischen den Mitgliedern seine Benchmark-Suite MLPerf, um kontinuierlich KI-Systeme (künstliche Intelligenz) zu bewerten und zu verbessern. Dazu werden Faktoren wie Geschwindigkeit, Genauigkeit, Sicherheit und Effizienz der KI-Systeme gemessen.

MLCommons wurde 2018 gegründet und bedient sich eines nutzerbasierten Ansatzes. Die Mitglieder zahlen einen jährlichen Beitrag, der von der Größe ihres Unternehmens abhängig ist – etablierte Firmen zahlen so mehr als Startup-Unternehmen. Aktuell hat MLCommons über 125 Mitglieder und Partner auf sechs von sieben Kontinenten. Außerdem können etwa 56.000 Ergebnisse von MLPerf vorgewiesen werden.

Was sind Benchmarks?

Unter einem Benchmark versteht man einen standardisierten Vergleichswert oder Maßstab, der zur Analyse und Bewertung von Effizienz, Leistung und Qualität von Systemen, Produkten oder Prozessen eingesetzt wird.

MLCommons nutzt die selbst entwickelten Benchmarks der MLPerf-Suite. Dabei wird standardisiert die Performance von KI und maschinellem Lernen (ML) auf unterschiedlichen Software- und Hardwaresystemen gemessen. So ist ein objektiver Leistungsvergleich von ML-Systemen wie beispielsweise GPUs oder CPUs unterschiedlicher Hersteller möglich. Außerdem wird auch eine einheitliche Methodik zur Leistungsbewertung von ML-Workloads geboten. Dadurch möchte MLCommons die Innovation von Hardware, Software und ML-Algorithmen fördern.

Benchmarks

Innerhalb der MLPerf-Suite entwickelte MLCommons verschiedene Benchmarks, damit unterschiedliche Facetten von KI und ML bewertet werden können. Um ein möglichst akkurates Ergebnis zu erzielen, werden Use Cases genutzt, die echte ML-Workloads widerspiegeln. Relevant ist, dass die erzielten Ergebnisse jederzeit unter den gleichen Bedingungen reproduziert werden können.

Die bei ML-Perf eingereichten Systeme gliedern sich in zwei Unterteilungen:

Geschlossene Unterteilung: Das eingereichte KI-System ist gleichwertig zu dem Referenzmodell und ermöglicht so einen Test und eine Optimierung unter den gleichen Bedingungen.
Offene Unterteilung: Das eingereichte System kann von dem Referenzmodell abweichen, deshalb muss beschrieben werden, in welcher Form und wie stark diese Abweichungen sind.

Außerdem werden die eingereichten Systeme noch in drei Kategorien eingeteilt:

zum Zeitpunkt der Einreichung im Handel erhältliche Systeme und zweitens
in Kürze im Handel erhältliche Systeme (in der Regel innerhalb von sechs Monaten)
Systeme, die sich noch im Stadium eines Prototyps befinden, für den internen Gebrauch gedacht sind oder nur als Forschung dienen

MLPerf Training

Das ist der erste Benchmark, der von MLCommons entwickelt wurde, und misst, wie lange ein System braucht, bis ein ML-Modell auf einen Datensatz trainiert ist. Dabei steht eine Zielgenauigkeit fest und es wird die Zeit bis zum Erreichen dieser Genauigkeit gemessen. Bei dieser Zeit werden allerdings auch drei Faktoren ausgeschlossen, die Initialisierung von System und Modell, sowie die Umformatierung von Daten.

Zu den üblichen ML-Modellen oder Workloads gehören Bildklassifikationen wie ResNet-50, Natural Language Processing (NLP) wie BERT, Objekterkennung wie SSD-ResNet-34, Instanzsegmentierung wie Mask R-CNN, Sprachübersetzungen wie Transformer und Empfehlungssysteme wie Recommendation DLRM. Solche Workloads und Modelle werden häufig im High Performance Computing, in KI-Supercomputern oder in Cloud-Training-Plattformen wie AWS oder Google Cloud eingesetzt.

MLPerf Training: HPC

Hier wird das ML-Training auf Supercomputern bewertet, das mit großen Modellen und Datensätzen arbeitet. Workloads in diesem Bereich umfassen kosmologische Simulationen wie CosmoFlow, Wetter- und Klimasimulation wie DeepCAM oder chemische Simulationen wie OpenCatalyst. Die häufigsten Einsatzbereiche sind wissenschaftliche Berechnungen für Wettervorhersagen oder Materialforschung und spezielle KIs für Physik und Biologie.

MLPerf Inference

Dieser Benchmark misst, wie viele Inferenzanfragen, also Vorhersagen, ein bereits trainiertes ML-Modell pro Sekunde bearbeiten kann. Das kann entweder im Offline-Modus stattfinden, wobei das System viele Anfragen als Batch Job verarbeitet, oder in Echtzeit, wo kontinuierlich Aufgaben mit minimaler Latenz bearbeitet werden.

Auch hier sind Bildklassifikationen, Objekterkennung, Sprachverarbeitung und Empfehlungssysteme gängige Modelle und Workloads. Eingesetzt werden sie in Rechenzentren für KI-Anwendung oder als Echtzeit-KI-Systeme in Form von Sprachassistenten oder Suchmaschinen.

Mit der Version 5.0 wurden neue Benchmarks hinzugefügt, Llama 3.1 405B, Llama 2 70B Interactive für Anwendungen mit niedriger Latenz, Automotive PointPainting für 3D-Objekterkennung und RGAT. Eingereicht wurden Ergebnisse von 23 Organisationen wie AMD, Cisco, CoreWeave und Broadcom. Es erfolgte ein Vergleich von sechs neue CPUs von AMD, Intel, Google und Nvidia.

MLPerf Inference: Tiny

MLPerf Inference: Tiny findet in Edge- und IoT-Geräten Verwendung und testet die Leistung von Modellen auf ressourcenschwachen Geräten wie Sensoren oder Mikrocontrollern. Das sind Workloads wie Wake Word Detection bei Sprachaktivierungen für Alexa oder Siri, die Anomalieerkennung in Sensordaten oder die Bildklassifikation auf Mikrocontrollern. Eingesetzt werden solche Workloads bei energieeffizienten Geräten und smarten Sensoren für IoT.

MLPerf Inference: Mobile

Anfänglich war MLPerf Inference: Mobile ein Teil von Inference, wurde aber ausgekoppelt. Dieses Benchmark fokussiert sich auf Tablets und Smartphones und bewertet die Inferenzleistung auf mobilen Systems on Chips (SoC). Häufige Workloads sind Natural Language Processing, Objekterkennung und Bildklassifizierung.

MLPerf Inference: Datacenter

Auch MLPerf Inference: Datacenter gehört eigentlich zu Inference, ist aber speziell auf Rechenzentren und KI-Anwendungen mit hohem Durchsatz ausgelegt. Getestet werden dabei Szenarien wie Suchanfragen, Recommendation und Ad-Serving, sowohl offline als auch im Servermodus.

MLPerf Inference: Edge

Dieser Benchmark misst, wie schnell ein Edge-System mit einem Trainingsmodell Inputs verarbeiten und Ergebnisse produzieren kann.

MLPerf Storage

Bei diesem Benchmark wird bewertet, wie effizient ein Speichersystem ML-Daten bereitstellen kann, während ein Modell trainiert wird. Übliche Metriken sind dabei die Latenz bei der Datenbereitstellung, Effizienz beim parallelen Zugriff auf Trainingsdaten und der Durchsatz der Daten in IOPS oder Gigabyte pro Sekunde. Solche Speichersysteme werden für das ML-Training, für Data Lakes oder große KI-Workloads genutzt.

MLPerf Client

MLPerf Client v0.5 bewertet die Leistung der Large Language Models und anderen KI-Workloads, wenn diese auf Client-Geräten wie persönlichen Computern, Notebooks, Desktops und Workstations arbeiten.

Weitere Benchmarks

Neben den bereits genannten Benchmark-Suites gibt es aktuell noch zwei weitere:

AILuminate beschäftigt sich mit Sicherheit rund um Chatbots, die mit generativer KI arbeiten und soll nicht nur bei der Entwicklung unterstützen, sondern auch Käufer und Nutzer informieren, und als Stütze für politische Entscheidungsträger dienen. Mit Version 1.0 gibt es französische Sprachunterstützung und erweiterte Sicherheitsbewertungen für KI-Systeme.
AlgoPerf v.0.5 untersucht, wie viel schneller Neural Network Models auf eine vorher gewählte Zielleistung trainiert werden können, wenn der zugrunde liegenden Trainingsalgorithmus verändert und angepasst wird.

MLCommons stellte sich im Rahmen der IT Press Tour in San Francisco vor, die mehrmals im Jahr Besuche bei Start-ups und IT-Unternehmen organisiert.