私はNVIDIAとGroqのこの話が非常に興味深いと思いました。基本的に、黄仁勋が今説明したことは戦略的に非常に意味があります。



この全体の始まりは、推論市場が変わったことにあります。以前は、皆一つのことに集中していました:スループットを増やし、より多くのリクエストを同時に処理すること。しかし、その実態は必ずしもそうではないと気づきました。いくつかのユーザーは、総量に関係なく、より速い応答のためにより高い価格を支払う意欲があります。

例えばこうです:あなたには同じモデルが二つありますが、一つは50ミリ秒で応答し、もう一つは500ミリ秒です。リアルタイムアプリケーションを開発しているエンジニアなら、10倍速い方にいくら追加で支払いますか?そうです、この低遅延市場は高スループットの市場とは全く異なります。

そこでGroqの出番です。彼らのLPUアーキテクチャはまさにこのために特化しており、低遅延の決定性を重視しています。NVIDIAのGPUが大量のスループットを支配している一方で、Groqは全く異なる穴を埋めています。3月にリリースされたSamsung製の4nmで作られたGroq 3 LPUを見ると、兆規模のモデルの1メガワットあたりの推論能力は、Blackwell NVL72の35倍も優れています。これは決して小さな差ではありません。

黄仁勋が言っているのは、NVIDIAは推論には一つの市場だけでなく、二つの異なるセグメントがあり、それぞれの価格設定のダイナミクスも全く異なることを理解したということです。スループットは少なくても、トークンあたりの単価が非常に高ければ、それだけの価値があります。これは市場のパレートフロンティアの拡張のようなものです。

これはNVIDIAの非常に巧妙な戦略でした。彼らはギャップを認識し、それを埋めに行きました。Jonathan RossとGroqのチームは引き続き独立して運営していますが、今やNVIDIAの全面的な支援を受けています。ついに誰かが推論をより洗練された形で考え始めているようです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン