InfiniteFlow - stock.adobe.com

Die versteckte Steuer auf jeden KI-generierten Merge Request

KI-Coding-Tools steigern das Merge-Request-Volumen, aber nicht die Review-Kapazität. Wie der versteckte Engpass bei erfahrenen Entwicklern die Delivery-Performance gefährdet.

KI-Coding-Tools haben Engpässe nicht beseitigt, sondern in die Review-Queue verlagert. Der Druck auf erfahrene Entwickler wächst. Dieses Ergebnis überrascht wenig. Mit wachsenden Teams steigt das Codevolumen, doch Review-Expertise skaliert nicht in gleicher Weise. Wer KI-Adoption anhand von Merge-Request-Volumen (MR), Codezeilen oder Lizenznutzung misst, erfasst nur Inputs, nicht den eigentlichen Engpass.

Die DORA-Kennzahlen 2025 zeigen: Wichtige Delivery-Metriken wie Lead Time, Deployment-Häufigkeit, Change-Failure-Rate und MTTR haben sich trotz verstärktem KI-Tool-Einsatz nicht verbessert. Teams mit den wenigsten Änderungsfehlern nutzen KI-gestützte Entwicklungs-Tools am seltensten. Das bedeutet nicht, dass KI-Tools schädlich sind, jedoch sollte man nicht davon ausgehen, dass mehr MRs automatisch höhere Produktivität bedeuten.

Die Review-Queue wurde zum Sprint-Plan

Kürzlich analysierte ich gemeinsam mit dem KI-Enablement-Engineering-Team eines Kunden dessen Delivery-Metriken. Der Rollout des KI-Coding-Tools zeigte starke Adoption-Zahlen, doch die Segmentierung der Durchlaufzeit (Cycle Time) nach Reviewer ergab ein anderes Bild. Entwickler mit dem tiefsten Systemwissen hatten so große Review-Queues, dass das Prüfen zur Haupttätigkeit wurde und ihre Kapazität für Design- und Architekturarbeit erheblich einschränkte.

Dieses Muster wiederholt sich teamübergreifend: Das MR-Volumen steigt, die Review-Zeiten verlängern sich, und erfahrene Entwickler haben weniger Zeit für Designaufgaben. Die Arbeitslast konzentriert sich, weil eine kleine Gruppe tiefen Systemkontext, sicherheitskritische Bereiche und Eigentumsverantwortung abdeckt. Entwickler mittlerer Erfahrungsstufe können bei kritischen Änderungen nicht einspringen.

Der eigentliche Kostenfaktor ist Aufmerksamkeitsfragmentierung. Erfahrene Entwickler werden häufig unterbrochen, was zu vorhersehbaren Qualitätsverlusten führt: oberflächliche Genehmigungen bei langen Queues oder Verzögerungen, wenn komplexe MRs auf verfügbare Zeitfenster warten.

Ein bestandener CI-Lauf bedeutet keine kostengünstige Prüfung

Automatisierte Prüfungen können mehr Arbeit übernehmen, menschliches Urteilsvermögen skaliert jedoch nicht in gleicher Weise. Selbst wenn eine Pipeline durchläuft, müssen Reviewer in regulierten Umgebungen weiterhin die Absicht verstehen, Auswirkungen bewerten, Autorisierungsgrenzen prüfen, Fehlerverhalten analysieren und Audit-Fähigkeit bestätigen.

KI-generierter Code erhöht den Aufwand für die Verifikation plausibler Korrektheit. Der Code mag kompilieren, Tests bestehen und Linting-Standards erfüllen, Reviewer müssen jedoch sicherstellen, dass er den beabsichtigten Zweck erfüllt, Datenklassifizierung korrekt behandelt und Richtlinienverstöße vermeidet. Diese Verifikation dauert häufig länger, wenn Code auf syntaktische Korrektheit statt auf systemweite Absicht hin generiert wurde. Mit wachsenden Queues verbringen Reviewer weniger Zeit je MR, was sowohl Geschwindigkeit als auch Qualität unter Druck setzt.

Generierung skaliert, Urteilsvermögen nicht

Es verdient Anerkennung, dass KI-Coding-Tools tatsächlich zur Produktivität beitragen. Sie können Code schnell erzeugen, Refactoring beschleunigen und Teams ermöglichen, mehr Features pro Sprint zu bearbeiten. Das ist ein echter Mehrwert für Entwicklungsteams.

Review-Kapazität ist jedoch durch begrenzten Kontext und persönliche Verantwortung begrenzt. Wenn ein Senior Engineer eine Änderung an einem Identity Service in einer regulierten Umgebung genehmigt, übernimmt er organisatorisches Risiko. Diese Verantwortung ändert sich nicht, unabhängig davon, wie schnell der Code generiert wurde.

Einfach KI-Code-Review hinzufügen ist der naheliegende nächste Schritt, doch es ist noch nicht erwiesen, dass KI-gestützte Reviews das kontextabhängige Urteilsvermögen zuverlässig ersetzen können, das Senior Reviews in risikoreichen Codepfaden wertvoll macht. In der Praxis löst die Beschleunigung der Generierung ohne Neugestaltung des Review-Prozesses das Problem nicht.

Wo KI-Review die Lücke tatsächlich schließt – und wo nicht

In einem Fall reduzierte KI-gestütztes Review die Arbeitslast erfahrener Entwickler tatsächlich messbar. Das Team verfügte bereits über solides CI, klare Code-Ownership, konsistente Service-Templates und schriftlich festgehaltene Review-Standards in Form von Checklisten. Der Fortschritt entstand durch den Einsatz von KI für eine Vorprüfung: Zusammenfassung der Absicht, Kennzeichnung richtlinienrelevanter Dateiänderungen und Abgleich von Diffs mit bekannten Mustern. Erfahrene Reviewer konzentrierten sich auf risikoreiche Änderungen, was die Durchlaufzeiten verkürzte, ohne die Fehlerrate zu erhöhen.

Im Gegensatz dazu gab es Misserfolge, wenn KI-Coding breit eingeführt wurde, ohne Workflows anzupassen. Bei einem regulierten Unternehmen stieg die Senior-Review-Belastung erheblich an. Die Drosselung der Codegenerierung und die Anforderung weniger, größerer MRs führten nur zu größeren Batches und aufwändigeren Reviews. Die wirksame Lösung war ein Workflow-Redesign: strikte Scope-Regeln für kleine Diffs, verpflichtende Author-Summaries und Risikoerklärungen, automatisierte Policy-Checks sowie rotierende, speziell geschulte Risk Captains für risikoreiche Triage. Die meisten Änderungen wurden konstruktionsbedingt zu Niedrigrisikoänderungen, während Experten ihr Augenmerk auf Ausnahmen richteten.

Der entscheidende Faktor war nicht das Tool. Es waren klare Review-Standards und Workflows, gepflegt durch Ownership, Iteration und Feedback. KI stärkt bestehende Workflows. Wo Standards lose sind, erzeugt KI-Triage Rauschen, das Reviewer ignorieren.

Schnittstellen und Ausnahmen konzentrieren die versteckte Steuer

Die schwierigsten Reviews betreffen Policy- und Systemgrenzen: Datenklassifizierung, Logging, Autorisierung und Fehlerbehandlung. Bei einer globalen Bank mit mehr als 4.000 Entwicklern in den Bereichen Security, Platform und Delivery verfolgte jede Gruppe eigene Metriken. Security reduzierte Schwachstellen, Platform verbesserte die Verfügbarkeit, Engineering beschleunigte Deployments, doch die Übergaben zwischen Teams verursachten erhebliche Verzögerungen. Niemand verantwortete die gesamte Durchlaufzeit.

André M. Braun

„KI-generierter Code erhöht den Aufwand für die Verifikation plausibler Korrektheit. Der Code mag kompilieren, Tests bestehen und Linting-Standards erfüllen, Reviewer müssen jedoch sicherstellen, dass er den beabsichtigten Zweck erfüllt, Datenklassifizierung korrekt behandelt und Richtlinienverstöße vermeidet. Diese Verifikation dauert häufig länger, wenn Code auf syntaktische Korrektheit statt auf systemweite Absicht hin generiert wurde.“

André M. Braun

KI-generiertes Volumen kann diese Dynamik verschärfen, indem es grenzüberschreitende Änderungen erhöht, sofern Workflows nicht gezielt darauf ausgelegt sind, sie einzugrenzen. Selbst die Einführung kleinerer MRs als Best Practice kann den Fluss behindern, wenn jede Änderung weiterhin teamübergreifende Prüfung, Security-Freigabe oder Compliance-Dokumentation erfordert.

Den Engpass messen, nicht den Output

Wer Reviewer-Kapazität nicht misst, interpretiert möglicherweise falsch, wie KI das Team beeinflusst. Folgende Metriken helfen, echten Durchsatz von Stau zu unterscheiden:

  • Durchlaufzeit von MRs segmentiert nach Reviewer, nicht als Organisationsdurchschnitt gemittelt
  • Reviewer-Belastung je Senior Engineer: Reviews pro Tag, aktive Queue-Tiefe und im Review verbrachte Stunden
  • Defect-Escape-Rate, nach Schweregrad gewichtet und nach KI-gestützten versus nicht-KI-gestützten MRs aufgeteilt

Die Verteilung ist aussagekräftiger als Durchschnittswerte. Eine kleine Anzahl überlasteter Experten kann kritische Systeme verzögern, selbst wenn Gesamtmetriken gesund wirken. Der entscheidende Indikator ist, dass erfahrene Entwickler wieder Zeit für Designarbeit gewinnen, bei gleichbleibender Qualität. Nicht die Anzahl geöffneter MRs.

Struktur durch Workflow-Design – bevor die Steuer weiter steigt

Die Lösung besteht weder darin, KI zu verbieten, noch Genehmigungen ohne Prüfung durchzuwinken. Es geht darum, Struktur einzuführen, damit gesteigertes KI-generiertes Volumen nicht automatisch die kognitive Belastung erfahrener Entwickler erhöht. Ein mögliches Framework sieht so aus:

  • Pre-Review-Triage als Kernschritt im Workflow implementieren: KI kann Absicht zusammenfassen, betroffene Dateien Risikobereichen zuordnen und fehlende Tests kennzeichnen, sodass Reviewer mit einer klaren Risikobewertung beginnen.
  • Risikobasierte Review-Pfade einrichten, sodass Routineänderungen zu Peer-Reviews gehen, während Änderungen bei Autorisierung, Datenverarbeitung oder serviceübergreifenden Grenzen zu Senior Reviewern weitergeleitet werden.
  • Belege direkt an den MR anhängen: Threat-Model-Notizen, Datenannotationen, Testergebnisse und Policy-Check-Ergebnisse.
  • Work-in-Progress-Limits für designierte Reviewer durch CODEOWNERS-Regeln und Workflow-Automatisierung durchsetzen.

Wer die Review-Queue nicht kennt, hat die Kontrolle bereits verloren

Ein nützlicher Führungstest: Ist nach der KI-Adoption die Review-Zeit für risikoreiche Änderungen gesunken, oder hat sich die Arbeitslast bei weniger Senior Engineers konzentriert? Letzteres zeigt, dass Codegenerierung gegen fixe Review-Kapazität zunimmt.

Senior-Review-Aufmerksamkeit sollte als kontrollierte Ressource behandelt werden, mit expliziten Limits, Routing-Regeln und Eskalationsverfahren. KI-gestützte Codegenerierung sollte nur dann auf neue Repositories oder Teams ausgeweitet werden, wenn Reviewer-Belastung und Defect-Escape-Rate innerhalb akzeptabler Grenzen bleiben.

Zu Beginn jeder Woche empfiehlt sich eine Frage: Wer sind die zwei Personen, die aktuell das Zusammenführen risikoreicher Änderungen begrenzen, und wie tief ist ihre aktuelle Review-Queue? Wer diese Frage nicht beantworten kann, dem fehlt Systemtransparenz. Nimmt diese Zahl Woche für Woche zu, hat man die versteckte Steuer gefunden.

Über den Autor:
André M. Braun ist VP for Central Europe bei GitLab. Mit über 30 Jahren Erfahrung in der IT-Branche hat er in führenden Management- und Country-Manager-Positionen bei Unternehmen wie Acer, EMC und Dell gearbeitet. Vor seinem Wechsel zu GitLab baute und leitete er das Hybrid-Cloud-Geschäft von NetApp in der DACH-Region. Als gefragter Experte für DevOps und Cloud-Technologien teilt er seine Expertise regelmäßig als Referent auf renommierten IT-Veranstaltungen, darunter die IDC DevOps Conference.

 

Die Autoren sind für den Inhalt und die Richtigkeit ihrer Beiträge selbst verantwortlich. Die dargelegten Meinungen geben die Ansichten der Autoren wieder.

Erfahren Sie mehr über Softwareentwicklung