โมเดลอนุมานแบบโอเพนซอร์ส Trinity-Large-Thinking ของ Arcee จากสหรัฐอเมริกา อ้างว่าใกล้เคียง Opus 4.6 และมีราคาถูกลง 96%

動區BlockTempo

สตาร์ทอัป AI ของสหรัฐ Arcee ได้เปิดตัวโมเดลอนุมานโอเพนซอร์ส Trinity-Large-Thinking ซึ่งทำคะแนนได้ 91.9 ในเกณฑ์ความสามารถของเอเจนต์ PinchBench โดยตามหลัง Opus 4.6 ที่ทำได้ 93.3 เท่านั้น ในเกณฑ์งาน Tau2-Airline Agent 任務更更ที่ 88.0 ทำคะแนนได้สูงสุดเหนือโมเดลที่เทียบทั้งหมด โมเดลใช้สถาปัตยกรรมแบบ Sparse Mixture of Experts (MoE) ขนาด 400B ราคา API สำหรับเอาต์พุตอยู่ที่ $0.90/ล้าน token ซึ่งถูกกว่า Opus 4.6 ประมาณ 96% และเปิดให้ดาวน์โหลดน้ำหนักภายใต้สิทธิ์ใช้งาน Apache 2.0 โดยรายงานและเรียบเรียงจาก Dongqu Dongqu
(ข้อมูลก่อนหน้า:รายงานวิเคราะห์ของ OpenRouter: 100 ล้านล้าน Token 研報: มนุษย์ใช้ AI ทำอะไรกันแน่ การเติบโตของโมเดลจากจีน และความลับเกี่ยวกับการคงอยู่ของผู้ใช้งาน)
(ข้อมูลเพิ่มเติม: Claude Opus 4.6 มาแล้ว: เขียนคอมไพเลอร์เอง ทำ PPT และ “ขุด” ช่องโหว่ zero-day 500 รายการแบบสุ่ม ๆ งานของคุณมันก็อยากลองทำดูด้วยเช่นกัน)。

สตาร์ทอัป AI ของสหรัฐ Arcee ที่มีจำนวนพนักงานไม่ถึงหนึ่งร้อยคน ได้ส่งคะแนนที่สูสีโมเดลเรือธงของ Anthropic ในการประเมินความสามารถของเอเจนต์ และราคาก็แค่ 4% ของราคาโมเดลของเขาเท่านั้น

Arcee ในอดีตไม่ได้เป็นจุดสนใจหลักของกระแสทั่วไป แต่ Trinity-Large-Thinking ที่เพิ่งเปิดตัวล่าสุดได้แทรกขึ้นมาอยู่กลุ่มหัวแถวแล้วในเกณฑ์มาตรฐานหลายสถานการณ์ของเอเจนต์

PinchBench ที่พัฒนาโดย Kilo คือดัชนีสำคัญที่ใช้ประเมินความสามารถในการใช้งานจริงของโมเดลในเวิร์กโฟลว์ของเอเจนต์ในอุตสาหกรรม ณ ตอนนี้ และ Trinity-Large-Thinking ทำคะแนนได้ 91.9 ในการทดสอบนี้ ขณะที่จอมทัพปัจจุบันอย่าง Opus 4.6 ทำได้ 93.3 ความต่างแค่ 1.4%

ในการทดสอบ Tau2-Airline ซึ่งจำลองสถานการณ์งานบริการลูกค้าในโลกจริงอีกแบบหนึ่ง มันยังทำคะแนนได้ 88.0 สูงกว่าทุกโมเดลที่เข้าร่วมเทียบเคียง นี่หมายความว่าในงานเอเจนต์จริงที่ต้องสนทนาหลายรอบ ต้องเรียกใช้เครื่องมือซ้ำ ๆ โมเดลโอเพนซอร์สนั้นมีระดับที่สูงจริง ๆ

ส่วนราคาของ API ของ Arcee คือ $0.90/ล้าน token ฝั่งทางการระบุว่าถูกกว่า Opus 4.6 ประมาณ 96% สำหรับสเกนาริโอการใช้งานที่ต้องให้เอเจนต์ทำงานอัตโนมัตินาน ๆ และคอยใช้ token อย่างต่อเนื่อง ความต่างด้านต้นทุนอาจมีความหมายมากกว่าความต่างด้านคะแนนโมเดล

พารามิเตอร์รวม 400B แต่การอนุมานแต่ละครั้งเผา 13B เท่านั้น

ตามที่ Arcee AI ระบุในบล็อกอย่างเป็นทางการ จุดสำคัญของการได้ค่าคุ้มราคาแบบนี้คือการเลือกสถาปัตยกรรม Trinity-Large-Thinking ใช้การออกแบบแบบ Sparse MoE (Mixture of Experts) ภายในมี 256 โมดูลเอ็กซ์เพิร์ต แต่เวลาประมวลผล token แต่ละครั้งจะเปิดใช้งานเพียง 4 โมดูลเท่านั้น เมื่อเทียบแล้ว โมเดลขนาดยักษ์ 400B ในการใช้งานอนุมานจริงต้องใช้ภาระการคำนวณเพียง 13B ประสิทธิภาพในการรันอยู่ที่ราว 2-3 เท่าของโมเดลแบบหนาแน่นในระดับเดียวกัน

เมื่อเทียบกับพรีวิวรุ่นก่อนที่เผยแพร่ช่วงปลายเดือนมกราคมของปีนี้ การอัปเกรดครั้งใหญ่ที่สุดคือการเพิ่ม “chain of thought” สำหรับการอนุมาน

Preview ทำแค่การ fine-tune ตามคำสั่ง ครั้งนี้เวอร์ชัน Thinking จะ “คิดก่อน” ก่อนตอบ เพิ่มขึ้นอย่างเห็นได้ชัดทั้งด้านความเสถียรของการเรียกใช้เครื่องมือแบบหลายรอบ และความต่อเนื่องของบริบทระยะยาว Arcee เองพูดตรง ๆ ว่าโมเดลนี้ถูกออกแบบมาเพื่อไม่ให้ล่มสลายในวงรอบของเอเจนต์ที่ทำงานนาน ๆ

โมเดลพื้นฐานใช้เงิน 20 ล้านดอลลาร์ และฝึกเสร็จใน 33 วัน ส่วนการทำ post-training ของเวอร์ชัน Thinking ใช้เวลาอีก 9 เดือนในการขัดเกลา

Lucas Atkins ซีอีโอของ Arcee เขียนในโพสต์เปิดตัวว่า: “Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.”

การอนุมานทั่วไปไม่ใช่สนามที่มันถนัด

แน่นอน การที่มันเชี่ยวชาญด้าน Agent ก็ย่อมแลกกับบางอย่าง ในเกณฑ์การอนุมานทั่วไป ผลของ Trinity-Large-Thinking ก็ไม่ได้โดดเด่นเท่าไร GPQA-D ได้ 76.3 ขณะที่ Kimi K2.5 ได้ 86.9, Opus 4.6 ได้ 89.2 ความต่างอยู่ที่ 10 และ 13 จุดเปอร์เซ็นต์ตามลำดับ; MMLU-Pro ที่ได้ 83.4 ก็เป็นอันดับท้ายในบรรดาโมเดลที่เทียบ

แต่ดูเหมือน Arcee ไม่ได้ตั้งใจจะสู้กันแบบตรง ๆ ในทิศทางนี้ โดยทางการระบุว่า “Trinity-Large-Thinking เป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุดนอกประเทศจีนในหลายมิติ” และได้ระบุชัดว่าคู่แข่งของพวกเขาไม่ใช่ Opus หรือ GPT แต่คือ กลุ่มโอเพนซอร์สจากจีนอย่าง DeepSeek, Kimi เป็นต้น

Trinity-Large-Thinking ได้อัปโหลดขึ้น OpenRouter แล้ว ช่วง 5 วันแรกใช้งานได้ฟรีบน OpenClaw ส่วน Preview รุ่นก่อนหน้ายังให้ใช้ฟรีต่อไปด้วย

พูดถึง Preview เวอร์ชันก่อนหน้า ตั้งแต่เปิดให้ใช้งานตั้งแต่ปลายเดือนมกราคมที่ผ่านมา ในแพลตฟอร์ม OpenRouter มีการประมวลผลรวมมากกว่า 3.37 ล้านล้าน token แล้ว ในสถิติของ OpenClaw มันคือโมเดลโอเพนซอร์สที่มีการใช้งานอันดับหนึ่งในสหรัฐ และอันดับสี่ของโลก สำหรับสตาร์ทอัปที่ไม่ใหญ่มาก อัตราการนำไปใช้แบบนี้ได้พิสูจน์แล้วว่า “ถูกและใช้งานง่าย” และความต้องการของตลาดยังมีอยู่จริง

น้ำหนักโมเดลเผยแพร่บน Hugging Face ภายใต้ใบอนุญาต Apache 2.0 ทำให้ใครก็สามารถดาวน์โหลด แก้ไข และนำไปใช้งานเชิงพาณิชย์ได้

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น