是什么報告讓馬斯克看了也覺得不可思議?


Moonshot AI(Kimi團隊)最近扔出一篇炸裂的技術報告:《Attention Residuals》,直接把 Transformer 裡用了快10年的殘差連接(Residual Connections)給升級了。結果連 Elon Musk 都忍不住留言,感覺不可思議(unbelievable 級別的震驚)。
這篇的核心一句話就能概括:
"別再讓每一層都傻傻地把前面所有層的信息等權重加起來了,讓模型自己學會用注意力去挑哪些早期層的信號才真正有用!"
傳統 Transformer(PreNorm結構)裡,每一層的輸出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
簡單粗暴:不管前面100層的信息到底有沒有用,都一股腦加進來。層數一深,早期重要信號就被後面無數層稀釋得快沒了(他們叫這個現象 PreNorm dilution 或 representational dilution)。
Kimi團隊直接把這個"+"號換成了一個輕量級的跨層注意力(depth-wise attention):
新公式大概長這樣(簡化版):
x_l = Attention( Q=x_l^{pre}, K=匯總前面所有層的summary, V=對應value ) + 其他東西
更實際的實現他們叫 Block AttnRes:每隔幾層(比如8-16層)做一個總結 key/value,然後用注意力去選這些 總結,而不是每一層都算注意力。這樣內存和算量增加很少(推理延遲<2%),但效果很猛。
他們實驗結果(用他們自己的Kimi Linear系列模型,48B total / 3B active那種):
• 同等 FLOPs 下,性能提升相當於1.25倍算力優勢
• 長序列推理、複雜多步推理任務提升明顯
• 隱藏狀態的 magnitude(範數)更穩定,不像傳統殘差那樣越深越爆炸或越衰減
• 梯度傳播更均勻,深層更容易訓練
⚠️⚠️
問題來了,為什麼馬斯克那麼大反應?
"殘差連接躺了八年,終於有人敢動它了,而且動得這麼優雅,效果還這麼好?!"
這玩意兒為什麼得注重?因為殘差連接幾乎是 Transformer 能訓到100+層、甚至上千層的唯一救命稻草,大家都覺得已經最優了沒法改。結果 Kimi 用最熟悉的注意力機制,反過來治了一下殘差本身的問題,等於把注意力就是你需要的全部這句話又玩出了新高度。
現在已經有 Rust實現(基於burn框架)、各種可視化解釋圖在 X 上刷屏,還有人說這是繼 DeepSeek mHC 之後,又一個真正能進下一代開源/閉源大模型的架構創新。
你要是做大模型、訓自己的LLM、這篇報告值得連夜讀原版 + 代碼(GitHub已經開源)。
報告:
準備好被震撼吧 🚀
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言