เฟรมเวิร์กการดำเนินงานอัตโนมัติด้วย AI ทำให้ผลลัพธ์ของ Haiku 4.5 อยู่ในอันดับหนึ่ง: ลิน จุนหยาง กล่าวว่า นี่คือการเปลี่ยนแปลงของ "การออกแบบสิ่งแวดล้อม" ที่เขาคาดการณ์ไว้

BlockBeatNews

จากการติดตามของ 1M AI News นักวิจัยจาก Stanford, MIT และบริษัทเกมของเกาหลี KRAFTON ได้เผยแพร่ Meta-Harness ซึ่งเป็นวิธีการสำหรับกรอบการทำงานที่ให้ AI ปรับแต่งการดำเนินการโดยอัตโนมัติ (harness คือชุดโครงสำหรับการรันที่ล้อมโมเดลและเป็นโครงนั่งร้านในการขับเคลื่อนให้ Agent ทำการ ครอบคลุมการออกแบบพรอมป์ท์ การเรียกใช้เครื่องมือ และการจัดการบริบท) สำหรับกรอบการทำงาน Meta-Harness แตกต่างจากกรอบการทำงานที่เขียนด้วยมือโดยมนุษย์ โดยให้ Agent ที่เป็นตัวเขียนโค้ดอ่านโค้ดของกรอบการทำงานชุดทางเลือกในอดีต บันทึกการรัน และคะแนน จากนั้นวนรอบปรับปรุงแบบอัตโนมัติ

บนเกณฑ์การทดสอบการปฏิบัติการในเทอร์มินัล TerminalBench-2 Meta-Harness ทำให้อัตราการผ่านของ Claude Haiku 4.5 อยู่ที่ 37.6% ซึ่งสูงกว่า Goose (35.5%) และ Claude Code (27.5%) และอยู่ที่อันดับหนึ่งในบรรดากรอบการทำงานของ Haiku 4.5 ที่มีรายงานทั้งหมด ใน Claude Opus 4.6 อัตราการผ่านอยู่ที่ 76.4% และอยู่ที่อันดับสอง。

Lin Junyang ผู้รับผิดชอบด้านเทคนิคของ Qianwen รุ่นก่อน ได้แชร์โพสต์ของผู้เขียนบทความและแสดงความคิดเห็นว่า:「‘โมเดล + กรอบการทำงานในการปฏิบัติ’ ได้ก้าวข้าม ‘ดูแค่มองที่โมเดล’ แล้ว การที่ Agent แสดงผลจะได้รับอิทธิพลอย่างมีนัยสำคัญจากการออกแบบและคุณภาพของกรอบการทำงาน และผมเชื่อจริงๆ ว่านี่คือทิศทางที่ถูกต้อง」 ในบทความยาวที่ Lin Junyang เผยแพร่เมื่อวันที่ 27 มีนาคม (ปัจจุบันถูกลบแล้ว) เขาได้คาดการณ์ไว้ว่า การออกแบบสภาพแวดล้อมจะเปลี่ยนจากโปรเจกต์เสริมไปเป็นหมวดหมู่สินค้าสตาร์ทอัพที่แท้จริง Meta-Harness ใช้ข้อมูลเชิงทดลองมาพิสูจน์ข้อสรุปนี้: โมเดลตัวเดียวกัน เมื่อเปลี่ยนไปใช้กรอบการทำงานสำหรับการเพิ่มประสิทธิภาพที่ให้ AI ปรับแล้ว ความแตกต่างของผลลัพธ์อาจสูงถึง 10 จุดเปอร์เซ็นต์

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น