2026-03-17 07:47:27

是什么報告讓馬斯克看了也覺得不可思議？

Moonshot AI（Kimi團隊）最近扔出一篇炸裂的技術報告：《Attention Residuals》，直接把 Transformer 裡用了快10年的殘差連接（Residual Connections）給升級了。結果連 Elon Musk 都忍不住留言，感覺不可思議（unbelievable 級別的震驚）。
這篇的核心一句話就能概括：
"別再讓每一層都傻傻地把前面所有層的信息等權重加起來了，讓模型自己學會用注意力去挑哪些早期層的信號才真正有用！"
傳統 Transformer（PreNorm結構）裡，每一層的輸出是：
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
簡單粗暴：不管前面100層的信息到底有沒有用，都一股腦加進來。層數一深，早期重要信號就被後面無數層稀釋得快沒了（他們叫這個現象 PreNorm dilution 或 representational dilution）。
Kimi團隊直接把這個"+"號換成了一個輕量級的跨層注意力（depth-wise attention）：
新公式大概長這樣（簡化版）：
x_l = Attention( Q=x_l^{pre}, K=匯總前面所有層的summary, V=對應value ) + 其他東西
更實際的實現他們叫 Block AttnRes：每隔幾層（比如8-16層）做一個總結 key/value，然後用注意力去選這些總結，而不是每一層都算注意力。這樣內存和算量增加很少（推理延遲<2%），但效果很猛。
他們實驗結果（用他們自己的Kimi Linear系列模型，48B total / 3B active那種）：
• 同等 FLOPs 下，性能提升相當於1.25倍算力優勢
• 長序列推理、複雜多步推理任務提升明顯
• 隱藏狀態的 magnitude（範數）更穩定，不像傳統殘差那樣越深越爆炸或越衰減
• 梯度傳播更均勻，深層更容易訓練
⚠️⚠️
問題來了，為什麼馬斯克那麼大反應？
"殘差連接躺了八年，終於有人敢動它了，而且動得這麼優雅，效果還這麼好？！"
這玩意兒為什麼得注重？因為殘差連接幾乎是 Transformer 能訓到100+層、甚至上千層的唯一救命稻草，大家都覺得已經最優了沒法改。結果 Kimi 用最熟悉的注意力機制，反過來治了一下殘差本身的問題，等於把注意力就是你需要的全部這句話又玩出了新高度。
現在已經有 Rust實現（基於burn框架）、各種可視化解釋圖在 X 上刷屏，還有人說這是繼 DeepSeek mHC 之後，又一個真正能進下一代開源/閉源大模型的架構創新。
你要是做大模型、訓自己的LLM、這篇報告值得連夜讀原版 + 代碼（GitHub已經開源）。
報告：
準備好被震撼吧 🚀

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人按讚了這條動態

讚賞
2
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場AI測評官
35.9萬熱度
#
比特幣站上7.5萬美元
4997.55萬熱度
#
加密市場上漲
50.85萬熱度
#
英偉達GTC2026大會召開
211.67萬熱度
#
美政府計劃多國聯合護航霍爾木茲
18.2萬熱度

熱門 Gate Fun
查看更多

1
FGG
Froggy Gold
市值:$2506.89持有人數:1
0.00%
2
螃蟹极速版
螃蟹极速版
市值:$2503.44持有人數:1
0.00%
3
螃蟹反诈
螃蟹反诈
市值:$2503.44持有人數:1
0.00%
4
螃蟹AI
螃蟹AI
市值:$2500持有人數:1
0.00%
5
螃蟹
螃蟹
市值:$2500持有人數:1
0.00%

是什么報告讓馬斯克看了也覺得不可思議？

熱門話題

Gate廣場AI測評官

比特幣站上7.5萬美元

加密市場上漲

英偉達GTC2026大會召開

美政府計劃多國聯合護航霍爾木茲

熱門 Gate Fun

FGG

Froggy Gold

螃蟹极速版

螃蟹极速版

螃蟹反诈

螃蟹反诈

螃蟹AI

螃蟹AI

螃蟹

螃蟹

置頂