DeepSeek发布超越残余连接的下一代AI架构“mHC”

robot
摘要生成中

来源:TokenPost 原文标题:中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 原文链接:https://www.tokenpost.kr/news/ai/320188 中国的AI研究机构DeepSeek(DeepSeek)发布了一种能够大幅提升下一代人工智能学习性能的新架构。被命名为’mHC(Manifold-Constrained Hyper-Connections)'的技术,采用超越大规模语言模型(LLM)和视觉识别模型中必不可少的’残差连接(residual connection)'方式的结构,不仅提升了学习准确率,还提高了硬件效率,受到广泛关注。

mHC是在现有’超连接(Hyper-Connections)'技术基础上的改进。超连接结构帮助深度学习模型的层(layer)之间更高效地传递信息,曾备受关注,但在实际运营环境中由于各种技术限制未能广泛应用。DeepSeek通过结合’manifold(manifold)'概念,克服了这一限制。多样的多层空间结构在数学上被称为流形,从简单的圆形到超过三维的复杂结构不等。DeepSeek表示,mHC利用这些基于流形的结构,在模型训练过程中确保梯度(误差反向传播信号)的稳定性和一致性,起到关键作用。

DeepSeek为了验证该架构的性能,使用了参数分别为30亿、90亿和270亿的三种大规模语言模型(LLM),采用mHC结构进行训练,并与相同规格的模型在超连接基础上进行了对比实验。结果显示,mHC结构的模型在8个基准测试中表现出持续优越的性能。特别是在内存需求方面,比传统结构更高效,训练时的硬件开销仅为6.27%左右。

DeepSeek的研究团队表示:“通过更深入理解基于流形的拓扑结构与优化算法之间的关系,mHC有望突破当前AI模型的局限,为下一代基础设施设计开辟新路径。”他们强调了该技术的意义。

此次发布引起关注的原因之一是其背景——全球范围内对AI学习架构的重新审视。自2015年引入深度学习研究中的残差连接以来,这一结构已被广泛应用于LLM和图像分类模型中。其原理是在最后输出层生成的误差信号向上传递,传递到各层以指导学习,但也带来了信息失真的问题。

随着AI模型逐渐变得超大规模,残差连接的局限性逐渐显现,相关改进尝试不断出现。DeepSeek的mHC作为最新技术,预计将在提升模型学习效率、推动AI产业基础发展方面发挥重要作用。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 9
  • 转发
  • 分享
评论
0/400
无常损失爱好者vip
· 3小时前
又来mHC?感觉这两年AI架构更新贼快,还没搞懂上一个呢 --- deepseek又整新花样,但国内这些研究成果最后还是被卡脖子 --- 잔차连接这套路已经烂大街了,mHC能真的比residual强多少呢 --- 又又又一个超越transformer的架构,真的假的呢 --- 看起来还行但还是那句话,实际推理成本才是关键
回复0
假装在读白皮书vip
· 10小时前
哎呀又是DeepSeek的新花样,这mHC听起来又要颠覆什么了? --- 잔차连接都能超越?这技术靠谱不靠谱啊,光看名字有点懵 --- 中国AI又又又发新架构,咱这边还在卷参数量呢哈哈 --- LLM和视觉模型都能提升?感觉吹得有点大啊 --- mHC这缩写咋这么不顺嘴,记都记不住 --- DeepSeek一个接一个的论文,也不知道实际效果咋样 --- 又是manifold又是hyper的,这帮人就爱整这些高大上的词儿
回复0
Crypto历史课vip
· 13小时前
ngl,之前见过这个图……残差连接在2017年曾被认为是终极架构。现在它们又“超越”了它?*查看历史表现图表* ...是的,我们肯定又进入了“革命性突破”周期的阶段。再给它18个月
查看原文回复0
LiquidationWatchervip
· 13小时前
ngl deepseek 正在推出新的 AI 架构,而我们都在为自己的仓位焦虑……还记得当时大家都认为残差连接是终极方案吗?无论如何,这个 MHC 似乎挺靠谱的,但我不知道,每次中国宣布一些突破性进展,我的清算 PTSD 就会发作。在2022年,太多“革命性”技术项目被抢跑到灰飞烟灭。
查看原文回复0
pvt_key_collectorvip
· 13小时前
哈,又是deepseek搞新花样,这次的mHC听起来挺牛逼的样子 --- 残差连接都玩腻了?有点意思啊,得看看实际效果怎样 --- 中国AI又发论文,西方资本市场又要抖动了 --- manifold-constrained这词儿起得,感觉有点生硬诶 --- LLM和视觉模型都能用,这要真落地了属于是降维打击 --- 不知道是炒作还是真有breakthrough,等着看benchmark吧 --- deepseek这帮人最近真活跃,融资完就开始轰炸式论文 --- 说白了还是在优化架构,核心逻辑有多新鲜吗 --- 这种东西一般要半年才能看出到底行不行,别急着吹 --- 超越residual connection?天哪又要改教材了吗
回复0
BoredStakervip
· 13小时前
吗的,deepseek又整新花样?每次中国团队发个东西西方媒体就开始炒
回复0
MemeTokenGeniusvip
· 14小时前
深思了一下,这mHC架构听起来牛逼啊,但实际能跑出什么东西来还得看 DeepSeek又搞新东西,有点猛,能超越现在的模型吗? 关键是成本能不能真的压下来,光纸面数据没意思 这波技术迭代,会不会对现有GPU厂商冲击有点大... mHC啦LLM啦,听起来专业,但真正能应用到web3生态的...嗯
回复0
割肉清仓侠vip
· 14小时前
又来新架构了,mHC这名字咋起的,感觉每次都在造词 --- deepseek又放大招,这次真能超越残差连接?有点好奇啊 --- 中国AI厂商内卷真猛,但这玩意实际能用吗 --- 看标题还没看懂,不过听起来又是一堆数学术语 --- emm又是超大模型的事儿,跟我们炒币有啥关系呢 --- 这玩意要是真能降低算力成本就牛了,现在训练模型太烧钱了 --- 标题一半是韩文一半是中文,搞得我有点晕 --- 架构好是好,但问题是谁能用上啊
回复0
空投黑洞vip
· 14小时前
深海选手又来卷了,mHC这波架构设计确实有点东西,但老实说这些论文听起来都差不多 DeepSeek这节奏,感觉要打破一些垄断了 LLM性能天花板要破?咱们就看着吧 又是一堆技术词,真正落地还得看后面怎么搞
回复0
查看更多
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)