Laut den von 1M AI News durchgeführten Monitoringdaten haben Forscher von Stanford, MIT und der koreanischen Spielefirma KRAFTON Meta-Harness veröffentlicht – eine Methode für ein automatisches Optimieren-Framework für die Ausführung von KI (harness, also eine Ausführungsschaffold-Struktur, die das Modell „einbettet“ und die Ausführung eines Agenten antreibt; sie umfasst Prompt-Design, Tool-Aufrufe und Context-Management). Im Gegensatz zu manuell von Menschen geschriebenen Ausführungsframeworks liest Meta-Harness als ein Coding-Agent den Code, die Ausführungsprotokolle und die Bewertungen früherer Kandidaten-Frameworks und optimiert sich dann automatisch iterativ.
Auf dem Terminal-Ausführungsbenchmark TerminalBench-2 bringt Meta-Harness die Erfolgsquote von Claude Haiku 4.5 auf 37,6 %, womit es Goose (35,5 %) und Claude Code (27,5 %) übertrifft und unter allen bisher berichteten Haiku-4.5-Ausführungsframeworks den ersten Platz belegt. Bei Claude Opus 4.6 liegt die Erfolgsquote bei 76,4 %, und damit steht es an zweiter Stelle.
Der technische Leiter von Qianwen, Lin Junyang, hat den Beitrag der Paper-Autoren weitergeleitet und kommentiert: „‚Modell + Ausführungsframework‘ hat ‚nur das Modell betrachten‘ bereits überholt. Das Auftreten des Agenten wird deutlich von dem Design und der Qualität des Frameworks beeinflusst. Ich glaube tatsächlich, dass das eine richtige Richtung ist.“ In einem langen Beitrag, den Lin Junyang am 27. März veröffentlicht hat (mittlerweile gelöscht), hatte er auch vorausgesehen, dass das Umwelt-Design von einem Nebenprojekt zu einer echten Startup-Kategorie werden würde. Meta-Harness belegt diese Einschätzung mit experimentellen Daten: Mit demselben Modell kann eine Umstellung auf ein von KI optimiertes Ausführungsframework den Leistungsunterschied um bis zu 10 Prozentpunkte ausmachen.