ドンチャビーティングによる監視によると、DeepSeek V4の技術報告書は、V4-FlashとV4-Proがそれぞれ32兆と33兆のトークンで事前学習されており、V3で使用された約15兆のトークンの2倍になっていることを明らかにしています。報告書は、トレーニングプロセスで「重大な不安定性の課題」に直面したことを認めており、損失の急増(突然のトレーニング損失の増加)がMoE層の外れ値に起因し、ルーティングメカニズム自体がこれらの外れ値を悪化させ、単純なロールバックが効果的でないことを示しています。DeepSeekは、実際のトレーニングで適用された2つの解決策を特定しています:ルーティングインデックスの計算をバックボーンネットワークの更新から切り離し、損失のスパイクが検出されたときのみ自動的にトリガーされる予測ルーティング(追加のオーバーヘッド約20%)と、外れ値を直接抑制するためにアクティベーション値を固定範囲にクランプするSwiGLUクランプです。報告書は、両方の方法が効果的であると述べていますが、「根本的な原理はまだ完全には理解されていない」と認めています。Google DeepMindの研究者スーザン・チャン(Meta AIやOpenAIで以前働いていた)は、トレーニングデータの倍増による不安定性が「遅れの原因である」とコメントし、これら二つの解決策を「応急処置」と表現しつつ、DeepSeekの技術的透明性を肯定しました。
DeepMindの研究者、DeepSeek V4の遅延について推測:訓練データが倍増し33兆に達し、深刻な不安定性を引き起こす
ドンチャビーティングによる監視によると、DeepSeek V4の技術報告書は、V4-FlashとV4-Proがそれぞれ32兆と33兆のトークンで事前学習されており、V3で使用された約15兆のトークンの2倍になっていることを明らかにしています。報告書は、トレーニングプロセスで「重大な不安定性の課題」に直面したことを認めており、損失の急増(突然のトレーニング損失の増加)がMoE層の外れ値に起因し、ルーティングメカニズム自体がこれらの外れ値を悪化させ、単純なロールバックが効果的でないことを示しています。DeepSeekは、実際のトレーニングで適用された2つの解決策を特定しています:ルーティングインデックスの計算をバックボーンネットワークの更新から切り離し、損失のスパイクが検出されたときのみ自動的にトリガーされる予測ルーティング(追加のオーバーヘッド約20%)と、外れ値を直接抑制するためにアクティベーション値を固定範囲にクランプするSwiGLUクランプです。報告書は、両方の方法が効果的であると述べていますが、「根本的な原理はまだ完全には理解されていない」と認めています。Google DeepMindの研究者スーザン・チャン(Meta AIやOpenAIで以前働いていた)は、トレーニングデータの倍増による不安定性が「遅れの原因である」とコメントし、これら二つの解決策を「応急処置」と表現しつつ、DeepSeekの技術的透明性を肯定しました。