Coding-Agenten im Enterprise-Einsatz bewerten: das System, nicht die Funktion
Funktionsbasierte Benchmarks bewerten, ob ein Modell eine isolierte Funktion korrekt schreibt. Im produktiven Einsatz erzeugen Coding-Agenten jedoch ganze Systeme – mit Architekturentscheidungen, Abhängigkeiten, Fehlerpfaden und Test-Integration. Das ist ein anderer Gegenstand, und er verlangt eine andere Messung.
Der Vortrag beschreibt, wie wir in regulierten Projekten Coding-Agenten bewerten: nicht das Modell allein, sondern das Gesamtsystem aus Modell, Werkzeugen und Orchestrierung. Wir erläutern die Bewertungsdimensionen – funktionale Korrektheit, Robustheit, Effizienz, Auditierbarkeit – und die Anforderung an reproduzierbare, versionierte Messläufe. Ein Erfahrungsbericht für Teams, die LLMs in regulierten Umgebungen in Produktion bringen.