จากการติดตามของ 1M AI News นักวิจัยจาก Stanford, MIT และบริษัทเกมของเกาหลี KRAFTON ได้เผยแพร่ Meta-Harness ซึ่งเป็นวิธีการสำหรับกรอบการทำงานที่ให้ AI ปรับแต่งการดำเนินการโดยอัตโนมัติ (harness คือชุดโครงสำหรับการรันที่ล้อมโมเดลและเป็นโครงนั่งร้านในการขับเคลื่อนให้ Agent ทำการ ครอบคลุมการออกแบบพรอมป์ท์ การเรียกใช้เครื่องมือ และการจัดการบริบท) สำหรับกรอบการทำงาน Meta-Harness แตกต่างจากกรอบการทำงานที่เขียนด้วยมือโดยมนุษย์ โดยให้ Agent ที่เป็นตัวเขียนโค้ดอ่านโค้ดของกรอบการทำงานชุดทางเลือกในอดีต บันทึกการรัน และคะแนน จากนั้นวนรอบปรับปรุงแบบอัตโนมัติ
บนเกณฑ์การทดสอบการปฏิบัติการในเทอร์มินัล TerminalBench-2 Meta-Harness ทำให้อัตราการผ่านของ Claude Haiku 4.5 อยู่ที่ 37.6% ซึ่งสูงกว่า Goose (35.5%) และ Claude Code (27.5%) และอยู่ที่อันดับหนึ่งในบรรดากรอบการทำงานของ Haiku 4.5 ที่มีรายงานทั้งหมด ใน Claude Opus 4.6 อัตราการผ่านอยู่ที่ 76.4% และอยู่ที่อันดับสอง。
Lin Junyang ผู้รับผิดชอบด้านเทคนิคของ Qianwen รุ่นก่อน ได้แชร์โพสต์ของผู้เขียนบทความและแสดงความคิดเห็นว่า:「‘โมเดล + กรอบการทำงานในการปฏิบัติ’ ได้ก้าวข้าม ‘ดูแค่มองที่โมเดล’ แล้ว การที่ Agent แสดงผลจะได้รับอิทธิพลอย่างมีนัยสำคัญจากการออกแบบและคุณภาพของกรอบการทำงาน และผมเชื่อจริงๆ ว่านี่คือทิศทางที่ถูกต้อง」 ในบทความยาวที่ Lin Junyang เผยแพร่เมื่อวันที่ 27 มีนาคม (ปัจจุบันถูกลบแล้ว) เขาได้คาดการณ์ไว้ว่า การออกแบบสภาพแวดล้อมจะเปลี่ยนจากโปรเจกต์เสริมไปเป็นหมวดหมู่สินค้าสตาร์ทอัพที่แท้จริง Meta-Harness ใช้ข้อมูลเชิงทดลองมาพิสูจน์ข้อสรุปนี้: โมเดลตัวเดียวกัน เมื่อเปลี่ยนไปใช้กรอบการทำงานสำหรับการเพิ่มประสิทธิภาพที่ให้ AI ปรับแล้ว ความแตกต่างของผลลัพธ์อาจสูงถึง 10 จุดเปอร์เซ็นต์