DeepSeek V4はV3と比べてトークン数を倍増させ、MoEの異常値やルーティング駆動のスパイクによる不安定性に直面している；二つの修正—予測ルーティング(損失トリガー、約20％の追加計算)とSwiGLUクランプ(活性化制限)—は問題に対処しているが、その原理は不明瞭なまま。張氏はそれらを応急処置と呼びながらも透明性を評価している。概要：このレポートはDeepSeek V4の訓練上の課題とその緩和策を要約したものである。V4-FlashとV4-Proはそれぞれ32兆と33兆のトークンで事前訓練され、V3の約15兆をほぼ倍増させたが、MoEルーティング過程の異常値による大きな不安定性と、損失スパイクや効果的でないロールバックを経験した。予測ルーティングはルーティングインデックスの更新をバックボーン訓練から切り離し、損失スパイク時に自動的に作動し、約20％の追加計算を伴う；SwiGLUクランプは活性化を一定範囲に制約し、異常値を抑制する。両手法は効果的だったが、その根底にある原理は完全には理解されていない。Google DeepMindのSusan Zhangはこれらの変更を実用的な応急処置と呼びつつも、プロジェクトの透明性を称賛した。

AirdropBlackHole

2026-04-27 02:14:01

概要作成中

ドンチャビーティングによる監視によると、DeepSeek V4の技術報告書は、V4-FlashとV4-Proがそれぞれ32兆と33兆のトークンで事前学習されており、V3で使用された約15兆のトークンの2倍になっていることを明らかにしています。報告書は、トレーニングプロセスで「重大な不安定性の課題」に直面したことを認めており、損失の急増(突然のトレーニング損失の増加)がMoE層の外れ値に起因し、ルーティングメカニズム自体がこれらの外れ値を悪化させ、単純なロールバックが効果的でないことを示しています。DeepSeekは、実際のトレーニングで適用された2つの解決策を特定しています：ルーティングインデックスの計算をバックボーンネットワークの更新から切り離し、損失のスパイクが検出されたときのみ自動的にトリガーされる予測ルーティング（追加のオーバーヘッド約20％）と、外れ値を直接抑制するためにアクティベーション値を固定範囲にクランプするSwiGLUクランプです。報告書は、両方の方法が効果的であると述べていますが、「根本的な原理はまだ完全には理解されていない」と認めています。Google DeepMindの研究者スーザン・チャン（Meta AIやOpenAIで以前働いていた）は、トレーニングデータの倍増による不安定性が「遅れの原因である」とコメントし、これら二つの解決策を「応急処置」と表現しつつ、DeepSeekの技術的透明性を肯定しました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。