DeepSeek 揭露超越殘餘連接性的次世代 AI 架構「mHC」

robot
摘要生成中

來源:TokenPost 原文標題:中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 原文連結:https://www.tokenpost.kr/news/ai/320188 中國的AI研究機構DeepSeek(DeepSeek)公布了一種能大幅提升下一代人工智慧學習性能的新架構。這項名為’mHC(Manifold-Constrained Hyper-Connections)'的技術,突破了在大型語言模型(LLM)和視覺識別模型中必不可少的’殘差連接(residual connection)'方式,提升了學習準確度以及硬體效率,受到廣泛好評。

mHC是對現有’超連接(Hyper-Connections)'技術的改進。超連接是一種幫助深度學習模型層(layer)之間更有效傳遞信息的結構,曾受到關注,但在實際運行環境中,由於各種技術限制,未能廣泛應用。DeepSeek通過結合’manifold(manifold)'概念,克服了這一限制。數學上,manifold是一種具有多層結構的空間,從簡單的圓形到超過三維的複雜結構皆有。DeepSeek表示,mHC利用這種基於manifold的結構,在模型訓練中生成的梯度(誤差反向傳播信號)的穩定性和一致性方面起到了關鍵作用。

為驗證該架構的性能,DeepSeek分別用30億、90億、270億個參數的三種大型語言模型在mHC結構下進行訓練,並用相同規格的模型在超連接基礎上進行對比實驗。結果顯示,mHC結構的模型在8個基準測試中均表現出更優的性能。特別是在記憶體需求方面,比傳統結構更為高效,訓練過程中產生的硬體開銷僅約6.27%。

DeepSeek的研究人員表示:“通過更深入理解基於manifold的拓撲結構與優化算法之間的關係,mHC有望突破當前AI模型的限制,開啟下一代基礎設施設計的新方向。”他們強調了這項技術的意義。

此次發布受到全球對AI學習架構重新審視的趨勢影響。傳統的殘差連接自2015年深度學習研究引入以來,已廣泛應用於LLM和圖像分類模型中。這種結構在最後輸出層產生的誤差信號反向傳遞,傳遞學習信息,但也伴隨著信息失真的問題。

隨著AI模型逐漸變得超大,殘差連接的局限性逐漸顯現,為此也出現了多種改進嘗試。DeepSeek的mHC正是在這一背景下的最新技術,有望直接促進整個AI產業中模型學習效率的提升。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 9
  • 轉發
  • 分享
留言
0/400
无常损失爱好者vip
· 01-02 12:04
又来mHC?感觉这两年AI架构更新贼快,还没搞懂上一个呢 --- deepseek又整新花样,但国内这些研究成果最后还是被卡脖子 --- 잔차连接这套路已经烂大街了,mHC能真的比residual强多少呢 --- 又又又一个超越transformer的架构,真的假的呢 --- 看起来还行但还是那句话,实际推理成本才是关键
回復0
假装在读白皮书vip
· 01-02 05:06
哎呀又是DeepSeek的新花樣,這mHC聽起來又要顛覆什麼了? --- 잔차連接都能超越?這技術靠不靠谱啊,光看名字有點懵 --- 中國AI又又又發新架構,咱這邊還在卷參數量呢哈哈 --- LLM和視覺模型都能提升?感覺吹得有點大啊 --- mHC這縮寫咋這麼不順嘴,記都記不住 --- DeepSeek一個接一個的論文,也不知道實際效果咋樣 --- 又是manifold又是hyper的,這幫人就愛整這些高大上的詞兒
查看原文回復0
Crypto历史课vip
· 01-02 01:51
說實話,我以前看過這個劇情......2017 年時,殘留連線本應是終局架構。現在他們正在「超越」它?*查看歷史表現圖表* ...是的,我們確實又回到了這個週期的「革命性突破」階段。給它18個月
查看原文回復0
LiquidationWatchervip
· 01-02 01:51
ngl deepseek 正在推出新的 AI 架構,而我們都在為自己的持倉汗顏……還記得當時大家都認為殘差連接是終極方案嗎?反正這個 MHC 的東西聽起來挺可靠的,但我不知道,每次中國宣布一些突破性進展,我的清算 PTSD 就會發作。在2022年,看過太多「革命性」技術的行情被提前操縱到消失。
查看原文回復0
pvt_key_collectorvip
· 01-02 01:51
哈,又是deepseek搞新花樣,這次的mHC聽起來挺牛逼的樣子 --- 殘差連接都玩膩了?有點意思啊,得看看實際效果怎樣 --- 中國AI又發論文,西方資本市場又要抖動了 --- manifold-constrained這詞兒起得,感覺有點生硬欸 --- LLM和視覺模型都能用,這要真落地了屬於是降維打擊 --- 不知道是炒作還是真有breakthrough,等著看benchmark吧 --- deepseek這幫人最近真活躍,融資完就開始轟炸式論文 --- 說白了還是在優化架構,核心邏輯有多新鮮嗎 --- 這種東西一般要半年才能看出到底行不行,別急著吹 --- 超越residual connection?天哪又要改教材了嗎
查看原文回復0
BoredStakervip
· 01-02 01:50
嗎的,deepseek又整新花樣?每次中國團隊發個東西西方媒體就開始炒
查看原文回復0
MemeTokenGeniusvip
· 01-02 01:48
深思了一下,这mHC架構聽起來牛逼啊,但實際能跑出什麼東西來還得看 DeepSeek又搞新東西,有點猛,能超越現在的模型嗎? 關鍵是成本能不能真的壓下來,光紙面數據沒意思 這波技術迭代,會不會對現有GPU廠商衝擊有點大... mHC啦LLM啦,聽起來專業,但真正能應用到web3生態的...嗯
查看原文回復0
割肉清仓侠vip
· 01-02 01:46
又来新架构了,mHC這名字怎起的,感覺每次都在造詞 --- deepseek又放大招,這次真能超越殘差連接?有點好奇啊 --- 中國AI廠商內捲真猛,但這玩意實際能用嗎 --- 看標題還沒看懂,不過聽起來又是一堆數學術語 --- emm又是超大模型的事兒,跟我們炒幣有啥關係呢 --- 這玩意要是真能降低算力成本就牛了,現在訓練模型太燒錢了 --- 標題一半是韓文一半是中文,搞得我有點暈 --- 架構好是好,但問題是誰能用上啊
查看原文回復0
空投黑洞vip
· 01-02 01:32
深海選手又來卷了,mHC這波架構設計確實有點東西,但老實說這些論文聽起來都差不多 DeepSeek這節奏,感覺要打破一些壟斷了 LLM性能天花板要破?咱們就看著吧 又是一堆技術詞,真正落地還得看後面怎麼搞
查看原文回復0
查看更多
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)