智譜發布GLM-5技術細節：工程級智能，適配國產算力

快照民工

2026-02-22 11:25:44

摘要生成中

2月12日，智谱发布GLM-5，技惊四座。10天后技术报告出炉，让人们一窥GLM-5模型的内在基因。

有意思的不是又刷了什么榜，而是整个思路变了：不再比参数大小，开始比系统工程能力。

GLM-5做的三件事都挺实在：1、模型真的能完成复杂任务了，不只是写几行代码；2、训练效率上了一个台阶，超大模型不再是纯烧钱游戏；3、从底层到推理框架全面适配国产芯片——这个最关键。

如果说之前是“中国在追赶”，现在则已经开始搭自己的技术体系了。

从"给代码"到"做系统"

报告提了个概念转变：从 Vibe Coding 到 Agentic Engineering。前者是你说一句我给段代码，后者是你给目标、我自己规划拆解、写代码调工具、调试迭代，直到把整个系统搞定。

GLM-5的重点已经不是单题得分，而是：

200K上下文（几百页文档的量）

跨文件软件工程任务

长周期任务中持续规划修正

多轮交互保持思考一致性

比如 Vending-Bench 2 要求"模拟经营自动售货机一年"，最后看账户余额。GLM-5在开源模型里第一，接近 Claude Opus 4.5。这测的是长期决策能力，不是问答题。

模型开始有"工程级智能"了。

稀疏注意力：不再无脑烧算力

GLM-5有744B参数（激活40B），训练了28.5万亿token。按传统架构，算力消耗会爆炸。

核心创新是DSA（DeepSeek稀疏注意力）。传统注意力机制"看所有内容"，计算复杂度平方级增长；DSA动态判断"哪些token真正重要"，只算关键部分。

200K长上下文下，DSA把注意力计算量降低1.5–2倍。

而且——无损。

其他高效注意力方法通常牺牲精度，DSA通过继续预训练平滑过渡，性能不退化。

结果是：

同样算力 → 更长上下文
同样成本 → 更高推理能力
同样硬件 → 更大模型

對中國來說，效率創新比堆算力重要得多。

强化学习架构重构

GLM-5的RL体系做了徹底改造。

生成與訓練解耦。模型生成軌跡，訓練在另一套系統異步進行。過去要等最慢任務完成才繼續訓練，現在誰先完成誰先訓練，吞吐大幅提升。對長程Agent任務至關重要。

異步Agent RL算法解決了真實軟體工程中任務持續數小時的問題。引入：

Token-in-Token-out（避免重新分詞誤差）
雙側重要性採樣
DP-aware路由優化KV cache

模型能在複雜環境中穩定學習，不會因策略偏移崩潰。

說白了，解決的是"如何讓大模型在真實任務中持續自我改進"。

真正關鍵的一步：適配國產算力

報告對中國AI最重要的部分在這。

GLM-5原生適配國產GPU生態，已兼容華為昇騰、摩爾線程、海光、寒武紀、昆侖芯、天數智芯、燧原。

不是"能跑"那種適配，而是：

KV cache調度優化
通信機制適配
混合精度訓練匹配
INT4量化感知訓練對齊
分佈式並行策略重構

很多國產芯片生態的難點不是算力，是軟體棧。

GLM-5的意義在於：不是圍繞單一海外硬體架構設計，而是面向多種國產算力平台做系統級適配。

這是一個質變——中國大模型開始圍繞本土硬體生態做工程優化，不再被動遷移。

報告稱，得益於上述軟硬協同的極致優化，GLM-5 在單台國產算力節點上的性能表現，已足可媲美由兩台國際主流GPU組成的計算集群；不僅如此，在長序列處理場景下，其部署成本更是大幅降低了50%。

軟硬件閉環正在形成

把GLM-5的技術路徑拆開看，是個完整閉環：

模型架構創新（DSA）→ 訓練效率優化（異步RL）→ 內存與通信壓縮（ZeRO、激活卸載）→ 低精度對齊（INT4 QAT）→ 國產芯片深度適配

這是一條完整的國產AI工程鏈路。

過去中國AI的優勢在應用層，現在開始進入架構創新、算法工程、訓練系統、芯片適配、推理框架的全棧優化。

這份技術報告的真正意義，不在某個基準測試分數，在於中國AI第一次以"體系能力"展示競爭力。

從炫技到成熟

GLM-5的報告沒過度強調"我們比誰強多少"，詳細披露訓練流程、算法選擇、工程權衡、消融實驗。這本身就是成熟的表現。

當一個模型開始談GPU利用率、長尾延遲、KV cache重用、量化kernel對齊、災難性遺忘控制——它已經不是在秀能力，而是在做工業級系統。

對中國來說，GLM-5更像是一場宣告：我們不僅能做大模型，也能做自己的算力適配，還能把兩者打通。

這才是真正的跨越。

風險提示及免責聲明

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人點讚了這條動態

讚賞
2
留言
轉發
分享

留言

0/400

暫無留言

熱門 Gate Fun
查看更多

1
F22
F22
市值:$2340.16持有人數:2
0.00%
2
pahan
Pahan
市值:$2300持有人數:1
0.00%
3
TMZ
Tamizhan
市值:$0.1持有人數:1
0.00%
4
TMZ
Tamizhan
市值:$2341.25持有人數:2
0.14%
5
M
玩了个毛
市值:$2332.1持有人數:2
0.07%

智譜發布GLM-5技術細節：工程級智能，適配國產算力

从"给代码"到"做系统"

稀疏注意力：不再无脑烧算力

强化学习架构重构

真正關鍵的一步：適配國產算力

軟硬件閉環正在形成

從炫技到成熟

熱門話題

美国以色列突襲伊朗BTC短線跳水

川普下令停用AnthropicAI產品

深度創作營

95%山寨幣跌破長期均線

Gate廣場發帖領五萬美金紅包

熱門 Gate Fun

F22

F22

pahan

Pahan

TMZ

Tamizhan

TMZ

Tamizhan

M

玩了个毛

置頂