DeepSeek发布梁文锋署名新论文:提出mHC新架构提升大模型训练稳定性

Gate News bot
来源于:PANews

PANews 1月1日消息,据金十报道,DeepSeek发布新论文,提出了一种名为流形约束超连接(mHC)的新架构,旨在解决超连接网络(HC)技术因破坏恒等映射特性而导致的训练不稳定和可扩展性受限等问题。该架构通过将HC的残差连接空间映射至特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率,实现了显著的性能改进和优越的可扩展性。DeepSeek预计,mHC作为HC的一种灵活实用拓展,将有助于更深入地理解拓扑架构设计,并为基座模型的演进指明有前景的方向。该论文由Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao共同担任第一作者,梁文锋也在作者名单之中。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)