AI-automatisierter Optimierungs-Execution-Framework lässt Haiku 4.5-Terminal-Ergebnisse auf Platz eins steigen: Lin Junyang sagt, genau das sei die von ihm vorhergesagte „Umgebungsgestaltung“-Wende

BlockBeatNews

2026-03-31 04:51:03

Laut den von 1M AI News durchgeführten Monitoringdaten haben Forscher von Stanford, MIT und der koreanischen Spielefirma KRAFTON Meta-Harness veröffentlicht – eine Methode für ein automatisches Optimieren-Framework für die Ausführung von KI (harness, also eine Ausführungsschaffold-Struktur, die das Modell „einbettet“ und die Ausführung eines Agenten antreibt; sie umfasst Prompt-Design, Tool-Aufrufe und Context-Management). Im Gegensatz zu manuell von Menschen geschriebenen Ausführungsframeworks liest Meta-Harness als ein Coding-Agent den Code, die Ausführungsprotokolle und die Bewertungen früherer Kandidaten-Frameworks und optimiert sich dann automatisch iterativ.

Auf dem Terminal-Ausführungsbenchmark TerminalBench-2 bringt Meta-Harness die Erfolgsquote von Claude Haiku 4.5 auf 37,6 %, womit es Goose (35,5 %) und Claude Code (27,5 %) übertrifft und unter allen bisher berichteten Haiku-4.5-Ausführungsframeworks den ersten Platz belegt. Bei Claude Opus 4.6 liegt die Erfolgsquote bei 76,4 %, und damit steht es an zweiter Stelle.

Der technische Leiter von Qianwen, Lin Junyang, hat den Beitrag der Paper-Autoren weitergeleitet und kommentiert: „‚Modell + Ausführungsframework‘ hat ‚nur das Modell betrachten‘ bereits überholt. Das Auftreten des Agenten wird deutlich von dem Design und der Qualität des Frameworks beeinflusst. Ich glaube tatsächlich, dass das eine richtige Richtung ist.“ In einem langen Beitrag, den Lin Junyang am 27. März veröffentlicht hat (mittlerweile gelöscht), hatte er auch vorausgesehen, dass das Umwelt-Design von einem Nebenprojekt zu einer echten Startup-Kategorie werden würde. Meta-Harness belegt diese Einschätzung mit experimentellen Daten: Mit demselben Modell kann eine Umstellung auf ein von KI optimiertes Ausführungsframework den Leistungsunterschied um bis zu 10 Prozentpunkte ausmachen.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare