Gate 廣場|2/27 今日話題: #BTC能否重返7万美元?
🎁 帶話題發帖,抽 5 位幸運兒送出 $2,500 仓位體驗券!
Jane Street 被起訴後,持續多日的“10 點砸盤”疑似消失。BTC 目前在 $67,000 附近震盪,這波反彈能否順勢衝回 $70,000?
💬 本期熱議:
1️⃣ 你認為訴訟與“10 點拋壓”消失有關嗎?市場操縱阻力是否減弱?
2️⃣ 衝擊 $70K 的關鍵壓力區在哪?
3️⃣ 你會在當前價位分批布局,還是等待放量突破再進場?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 2/27 16:00 - 3/1 12:00 (UTC+8)
Qwen 推出新一代視覺-語言模型 以提升編碼、推理與多模態 AI 表現
簡要概述
Qwen 團隊已推出開放式權重的 Qwen3.5‑397B‑A17B 模型,在多模態性能、強化學習和訓練效率方面取得重大進展,作為推動更強大、通用 AI 代理的更廣泛努力的一部分。
阿里雲的 Qwen 團隊推出了其新系列 Qwen3.5 的首款模型,揭示了開放式權重的 Qwen3.5‑397B‑A17B
該模型定位為原生視覺-語言系統,在推理、編碼、代理任務和多模態理解方面都展現出強勁的性能,反映出公司在大規模 AI 發展方面的重大進步
該模型基於一種混合架構,結合了通過 Gated Delta Networks 實現的線性注意力與稀疏專家混合設計,使推理過程中具有高效率。儘管整個系統包含 3970 億參數,但每次前向傳播只激活 170 億,這使其能在保持高能力的同時降低計算成本。此次發布還擴展了語言和方言的覆蓋範圍,從 119 種增加到 201 種,進一步提升全球用戶和開發者的可及性。
Qwen3.5 在強化學習與預訓練效率方面取得重大突破
Qwen3.5 系列在 Qwen3 的基礎上實現了顯著提升,主要得益於在多種環境中大規模擴展的強化學習。團隊並未僅僅針對狹窄的基準進行優化,而是專注於提升任務難度和泛化能力,從而在 BFCL‑V4、VITA‑Bench、DeepPlanning、Tool‑Decathlon 和 MCP‑Mark 等評估中展現出更佳的代理性能。更多結果將在即將發布的技術報告中詳細說明。
預訓練方面的改進涵蓋能耗、效率和多功能性。Qwen3.5 在大量視覺-文本數據上進行訓練,並強化多語言、STEM 和推理內容,使其性能能媲美早期的萬億參數模型。架構升級包括更高稀疏度的 MoE、混合注意力、穩定性優化和多標記預測,帶來了在長達 32k 和 256k 令牌的擴展上下文長度下的產能提升。模型的多模態能力通過早期文本-視覺融合和擴展的數據集(涵蓋圖像、STEM 資料和視頻)得到強化,同時更大的 25 萬詞彙表提升了多數語言的編碼和解碼效率。
支撐 Qwen3.5 的基礎設施專為高效多模態訓練而設計。異構並行策略將視覺和語言組件分離,避免瓶頸,而稀疏激活則使混合文本-圖像-視頻工作負載下幾乎達到最大產能。原生 FP8 管道能將激活記憶體大約減半,並將訓練速度提升超過 10%,在大規模令牌長度下仍保持穩定。
強化學習由一個完全異步的框架支持,能處理各種規模的模型,提升硬體利用率、負載平衡和故障恢復能力。採用 FP8 全流程訓練、推測解碼、滾動路由重放和多回合滾動鎖定等技術,有助於保持一致性並降低梯度過時的情況。系統設計支持大規模代理流程,實現無縫的多回合交互和跨環境的廣泛泛化。
用戶可以通過 Qwen Chat 與 Qwen3.5 互動,根據任務不同提供自動、思考和快速模式。模型也可在阿里雲的 ModelStudio 上使用,通過簡單參數啟用推理、網頁搜索和代碼執行等高級功能。與第三方編碼工具的集成,使開發者能以最小摩擦將 Qwen3.5 融入現有工作流程。
據 Qwen 團隊表示,Qwen3.5 通過其混合架構和原生多模態推理,為通用數字代理奠定了基礎。未來的開發將聚焦於系統層面的整合,包括持久記憶以實現跨會話學習、實體界面以進行現實世界交互、自我導向的改進機制,以及具備經濟意識的長期自主運行。目標是超越任務專用助手,打造具有連貫性、持久性,能管理複雜多日目標並具有可靠人類對齊判斷的智能代理。