福利加码,Gate 廣場明星帶單交易員三期招募開啟!
入駐發帖 · 瓜分 $30,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首發優質內容即得 $30 跟單體驗金
每雙周瓜分 $10,000U 內容獎池
Top 10 交易員額外瓜分 $20,000U 登榜獎池
精選帖推流、首頁推薦、周度明星交易員曝光
詳情:https://www.gate.com/announcements/article/50291
終於出了一個真正重要的基準測試。
忘掉 MMLU 和數學分數吧…… PinchBench 測試哪個 AI 模型在執行實際工作方面表現最佳。
不是回答 trivia,而是真正完成任務:
→ 從多個網路資源查詢資訊
→ 創建並安排會議
→ 組織電腦上的檔案
→ 撰寫和管理電子郵件
它測試模型作為代理人通過 OpenClaw 運行……意味著 AI 必須使用工具、鏈接操作,並完成端到端的任務。
結果非常有趣:
> Gemini 3 Flash 以 95.1% 領先
> MiniMax M2.1 緊追其後,達到 93.6%
> Kimi K2.5 93.4%
> Claude Sonnet 92.7%
> Gemini 3 Pro 91.7%
> Claude Haiku 90.8%
> Claude Opus 4.6 90.6%
> GPT-5 Nano 85.8%
前後模型的差距只有約 10%……這意味著大多數前沿模型在代理任務上的表現已經相當不錯。
但真正的重點是?Gemini Flash……一個輕量級模型……在實用代理工作中超越了所有重量級模型。速度 + 工具使用 > 純粹智慧。
這種基準測試應該決定你每天使用的模型,而不是一些沒有人關聯的學術測試。