去年12月初,OpenAGI基金會搞了個大動作——推出名叫Lux的基礎模型。這玩意兒有點意思,號稱是第一個專門讓AI學會「像人一樣點鼠標敲鍵盤」的開源方案。



簡單說就是,以前AI再聰明也得靠API接口幹活,現在Lux能直接操作軟體介面了。他們拿300個日常任務場景做測試,結果挺能打:在Online-Mind2Web這個業內常用基準上跑出83.6%的成績。

對比下就知道含金量——某搜尋巨頭的Gemini CUA拿了69%,某聊天機器人公司的Operator是61.3%,連某主打AI助手的廠商Claude Sonnet都沒超過這個分數。

開源這條路確實有點東西,至少讓更多開發者能摸到「AI自動操作電腦」這個方向的門檻了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 6
  • 轉發
  • 分享
留言
0/400
LiquidatedTwicevip
· 9小時前
靠,Lux這數據是真的假的,83.6%直接碾壓Claude?有點離譜啊
查看原文回復0
做题家の困惑vip
· 9小時前
83.6%這數字有點嚇人啊,感覺AI真的開始會「自己幹活」了 --- 開源就是玩家的福音,之前這些東西都被大廠鎖死了 --- 等等,Lux能直接操作介面?那我這行飯怎麼吃啊 --- Claude Sonnet被幹翻了,這就尷尬了 --- 300個任務場景測試出來的成績能信嗎,我怎麼總覺得有水分 --- 果然還是得看開源方案,商業的AI一個比一個離譜 --- 點滑鼠敲鍵盤聽起來簡單,但能落地成這樣還是很厲害 --- 這玩意兒要是成熟了,很多重複勞動直接沒了吧
查看原文回復0
智能合约反叛者vip
· 10小時前
83.6%這數字確實離譜,直接吊打那些閉源的大廠方案 開源版本竟然能超越Claude,這說明什麼?說明大廠們可能在摸魚哈哈 真正讓我好奇的是300個任務場景夠不夠真實...感覺還需要時間檢驗 話說這種AI自動操作電腦的東西普及了,我們這幫搬磚的是不是要失業了 Lux這名字取得不錯,聽起來就很「光明」,暗示開源要拯救世界是吧 基金會這次真沒吹牛,數據擺在那,比官方發佈會的PPT可信多了 感覺2024年的AI基準測試都快成笑話了,這個Lux冒出來直接改了排名
查看原文回復0
社区打工仔vip
· 10小時前
83.6%直接幹掉其他的,開源真的這麼猛嗎,我怎麼覺得有點虛
查看原文回復0
SandwichVictimvip
· 10小時前
83.6%這數據真的絕了,直接壓制Gemini和Claude,開源模型開始翻身了? --- 這真的是開源社區的勝利,終於有人把這事兒做出來了 --- 等等,能直接操作介面這不就是RPA的終極進化嗎,這要是普及開來感覺有點可怕耶 --- 比Claude Sonnet還猛?我怎麼覺得這說法有點吹啊 --- 開源萬歲,是時候讓大廠壟斷局面破一破了 --- 直接點滑鼠敲鍵盤...這要是真的用起來,很多工作崗位得抖三抖
查看原文回復0
alpha_leakervip
· 10小時前
83.6% 直接幹趴 Gemini 和 Claude,這開源猛啊,終於有人把 AI 操電腦這塊搞出來了
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)