オリジナルタイトル:分散型コンピューティングの転送
今日の記事では、暗号の分野における新興でありながらしばしば誤解されている分散型コンピューティングについて取り上げます。AIインフラストラクチャの景観に深く入り込み、分散型の代替手段が現実的にどこで競争できるかを理解していきます。
ASIは分散ネットワークで訓練することは可能か?暗号ネットワークが提供する独特の利点は何か?そして、なぜ許可なしの計算基盤がAIにとってビットコインが金融にとって重要であるかのようになる可能性があるのかなど、私たちは次のような問いを探求します。
記事でよく見られる共通のパターンは、AIのすべて(投資、計算、機能)の指数関数的な成長です。これは、暗号通貨市場と関心の復活と一致しています。これら2つの主要なテクノロジーの波の交差点に非常に興奮しています。
こんにちは!
テネシーメンフィスの晴れた日に、プロペラスパイプレーンが産業ビルの上空を何度も循環し、その乗客は必死に下の施設を写真に収めました。これは冷戦のスパイ活動ではなく、2024年の出来事でした。目標は軍事施設やウラン濃縮施設ではなく、かつての家電工場で、今では世界でも最も強力なスーパーコンピュータを収容しています。乗客は外国のエージェントではなく、ライバルのデータセンター企業の従業員でした。
数十年ごとに、文明の軌道を疑いなく変える可能性がある変革的な技術が出現します。その後、世界で最も強力なエンティティがこの技術を最初に実現するための競争が繰り広げられます。報酬は非常に巨大であり、失敗の影響は壊滅的なため、これらのエンティティは迅速に人材と資本を含む全力を挙げて技術の習得に向けて動きます。
20世紀には、この定義に合致する2つの傑出した技術がありました。それは核兵器と宇宙探査です。これらの技術を利用しようとする競争には、最も強力な国家が関与しました。アメリカの両方での勝利は、世界の覇権国としての地位を確立し、並外れた繁栄の時代をもたらしました。敗者であるナチス・ドイツとソビエト連邦にとって、その結果は壊滅的でさえありました。
アメリカ、テネシー州オークリッジにある44エーカーの巨大なK-25工場は、最初の原子爆弾のウランが生産された場所です(ソース)
アメリカの勝利は莫大な代償をもたらしました。マンハッタン計画は約20億ドル(インフレーションを考慮して約300億ドルに相当)かかり、12万人以上(アメリカ人の千人に一人)が従事しました。宇宙競争はさらに大きな資源を要求しました。アポロ計画は1960年代に280億ドル(現在の価値にして約3,000億ドル)かかり、40万人以上(アメリカ人の490人に一人)が関与しました。1966年のピーク時には、NASAは全米連邦予算の4.4%を占めました。
月へのミッションに向けて打ち上げ直前のアポロ11号ソース)
2022年にChatGPTがローンチされ、人類の文明を変えるような人工超知能(ASI)の追求の幕が開けました。AIはすでに日常生活に組み込まれており、ソーシャルメディアのフィード、Netflixのおすすめ、メールのスパムフィルターを管理していますが、大規模言語モデル(LLM)の出現は、人間の生産性、メディアの創造、科学的研究、そしてイノベーションそのものを変革することを約束しています。
今回は、競争相手は国家ではなく(少なくともまだ)、世界最大の企業(マイクロソフト、グーグル、メタ、アマゾン)、最も注目を集めるスタートアップ(OpenAI、Anthropic)、そして最も裕福な個人(イーロン・マスク)です。ビッグテックは前例のない資金を注いで、ますます強力なモデルを訓練するためのインフラを構築している一方、スタートアップは安定を確保しています。記録破りベンチャーキャピタルの資金調達。 イーロンは、まあ、エロンのようなことをしています(監視下のデータセンターは彼の会社、xAIのものでした)。
そして、それ以外の全ての人々がいます-企業、中小企業、スタートアップ-彼らはASIを構築することを望んでいないかもしれませんが、AIによって解放される最先端の機能を利用してビジネスを最適化したり、業界を破壊したり、完全に新しい業界を作り出したりしたいと思っています。潜在的な報酬は非常に大きいため、誰もがこの新しい機械知能駆動の経済の一部を手に入れようと奮闘しています。
AI革命の中心には、その最も重要な要素があります: グラフィックス処理ユニット(GPU)。もともとはビデオゲームの動力源として設計されたこの特殊なコンピュータチップは、世界で最も注目される商品となっています。GPUの需要は非常に大きく、企業はしばしば耐え忍ぶことがあります 数ヶ月にわたる待ちリストわずか数台を入手するために。この需要により、彼らの主要な製造業者であるNVIDIAは、世界で最も価値のある会社の地位に押し上げられました。
GPUを直接購入できないまたは購入する意欲がない企業にとって、計算能力をレンタルすることが次の最善の選択肢となっています。これにより、AIクラウドプロバイダーの台頭が促進されています。これらの企業は、AIブームの計算ニーズを満たすために特化した洗練されたデータセンターを運営しています。しかし、需要の急増と予測不可能な性質から、価格や供給の保証はありません。
私 主張した仮想通貨は「コアシアン」テクノロジーとして機能し、他の破壊的なイノベーションが繁栄するために「車軸を潤滑し、道路を舗装し、橋を強化する」ことを目指しています。AIが私たちの時代の変革の力として浮上するにつれて、GPUへのアクセスの希少性と過剰なコストはイノベーションの障壁となっています。いくつかの仮想通貨企業がブロックチェーンベースのインセンティブでこれらの障壁を取り払うことを目指して取り組んでいます。
本日の記事では、まず暗号通貨から一歩引いて、現代のAIインフラの基本を調査します。ニューラルネットワークがどのように学習するか、なぜGPUが欠かせないものとなってきたか、そしてどのように今日のデータセンターが前例のない計算要求に対応しているかについて見ていきます。その後、分散コンピュートソリューションについて探求し、それがどこで従来のプロバイダーと実際に競争できるのか、暗号ネットワークが提供する独自の利点、そしてなぜAGIを提供しないにせよ、AIの利点がすべての人にアクセス可能であることを確保するために依然として不可欠である理由について深堀りします。
まず、なぜGPUがそもそも重要なのかから始めましょう。
これは、イタリアのルネサンス期の天才、ミケランジェロによって作られた、17フィートの背の高い、6トンの大理石の彫刻であるダビデです。これは、ダビデとゴリアテの物語からの聖書の英雄を描いており、人間の解剖学の完璧な表現と透視と細部への巧妙な注意により、傑作とされています。
すべての大理石の彫刻と同様に、ダビデはカッラーラ大理石の巨大な粗い板から始まりました。最終的な壮大な形になるために、ミケランジェロは石を徹底的に彫り落とさなければなりませんでした。まずは基本的な人間の形を確立するために広く大胆な筆触から始め、筋肉の曲線、静脈の緊張、目の決意の微妙な表現など、ますます細かいディテールに進んでいきました。ミケランジェロはダビデを石から解放するのに3年かかりました。
しかし、なぜAIの記事で500年前の大理石の彫刻像について議論するのでしょうか?
デビッドのように、すべてのニューラルネットワークは純粋な潜在能力として始まります。ランダムな数値(重み)で初期化されたノードの集まりは、カッラーラ大理石の巨大なブロックと同じように、無形です。
この生のモデルは、訓練データとその正しい出力の無数のインスタンスと共に繰り返しフィードされます。ネットワークを通過する各データポイントは、数千回の計算をトリガーします。各ノード(ニューロン)では、入力値を接続の重みで乗算し、これらの積を合計し、ニューロンの発火強度を決定する「活性化関数」を介して結果を変換します。
ミケランジェロが自分の作品を見つめ直し、評価し、修正するように、ニューラルネットワークも磨きをかけます。各順方向のパスの後、ネットワークは出力を正解と比較し、誤差のマージンを計算します。バックプロパゲーションというプロセスによって、各接続が誤差にどれだけ貢献したかを測定し、ミケランジェロの彫刻刀のように値を調整します。接続が正しい予測につながる場合、その影響力は強まります。逆に、誤った予測につながる場合、その影響力は低下します。
すべてのデータがネットワークを通過すると(データポイントごとに1つの順方向および逆方向の伝搬ステップを完了する)、それは「エポック」の終わりを示します。このプロセスは複数回繰り返され、各パスでネットワークの理解が磨かれます。初期のエポックでは、ネットワークが大幅な調整を行うために重みの変化は劇的であり、最初の大胆な彫刻ストライクのようです。後のエポックでは、変更はより微妙になり、最適なパフォーマンスのために接続を微調整するためのものであり、細かい最終的なタッチがDavidの詳細を引き出したのと同様です。
ついに、何千回も何百万回もの繰り返しの後、訓練されたモデルが現れます。完成形で誇らしげに立っているデイビッドのように、ニューラルネットワークはランダムなノイズからパターンを認識し、予測を行い、スクーターに乗る猫の画像を生成し、コンピュータが人間の言語を理解し、応答することができるシステムへと変わります。
ミケランジェロは、ダビデに取り組んでいる間、1回の彫刻のために1回の彫刻のみが可能であり、そのためには角度、力、位置の正確な計算が必要でした。この煩雑な正確さのために、彼が傑作を完成させるのに3年間もかかりました。しかし、完全な連携で働く数千人もの同様に熟練した彫刻家がダビデに取り組んだと想像してみてください。髪の毛の巻き毛に取り組むチーム、胴体の筋肉に取り組む別のチーム、そして顔、手、足の緻密なディテールに取り組む何百ものチームがいます。そのような並列的な取り組みによって、その3年間は僅かな数日に短縮されるでしょう。
同様に、CPU は強力で正確ですが、一度に 1 つの計算しか実行できません。ニューラルネットワークのトレーニングには、単一の複雑な計算ではなく、何億もの単純な計算(主に各ノードでの乗算と加算)が必要です。たとえば、前述のサンプル ニューラル ネットワークは、わずか 18 個のノードと約 100 個の接続 (パラメーター) で、妥当な時間枠内で CPU でトレーニングできます。
しかし、現在の最も強力なモデルであるOpenAIのGPT-4には1,800億のパラメータがあります!さらに小さな現代のモデルでも少なくとも10億のパラメータを含んでいます。これらのモデルを一つずつ計算してトレーニングするには、何世紀もかかるでしょう。ここでGPUが優れているのです。彼らは同時に多数の単純な数学計算を実行できるため、並列で複数のニューラルネットワークノードを処理するのに最適です。
モダンなGPUは驚くほど強力です。たとえば、NVIDIAの最新のB200 GPUは、2000億を超えるトランジスタで構成され、1秒あたり2,250兆の並列演算をサポートしています(2,250 TFLOPS)。単一のB200 GPUは7400億個のパラメータを持つモデルを処理できます。これらのマシンは現代のエンジニアリングの偉業を表しており、NVIDIAは1台あたり40,000ドルで販売しているため、5年間で株価が2,500%以上上昇しています。
ジェンセン・ファングがNVIDIA B200を発表
しかし、これらの強力なマシンでもAIモデルを単独でトレーニングすることはできません。トレーニング中、各データインスタンスは個別にモデルを前方および後方に通過する必要があります。現代の大規模言語モデル(LLMs)は、インターネット全体を網羅するデータセットでトレーニングされています。たとえば、GPT-4は推定12兆トークン(約9兆語)を処理し、次世代のモデルは最大で100兆トークンを処理できるようになると予想されています。これほど膨大なデータ量を単一のGPUで処理するとなると、数世紀かかるでしょう。
解決策は、もう一つの並列化レイヤーを追加することにあります。つまり、トレーニングタスクが統一されたシステムとして動作する多数のGPUに分散されるGPUクラスタを作成することです。モデルトレーニングのワークロードは、次の3つの方法で並列化することができます:
データの並列処理: 複数の GPU は、トレーニング データのさまざまな部分を処理しながら、ニューラル ネットワーク モデルの完全なコピーをそれぞれ保持します。各GPUは、他のすべてのGPUと定期的に同期する前に、割り当てられたデータバッチを個別に処理します。この同期期間中、GPU は相互に通信して重みの集合平均を見つけ、それらがすべて同一になるように個々の重みを更新します。その結果、再び同期する時期が来る前に、データのバッチで個別にトレーニングを続けます。
モデルが大きくなると、1つのコピーは1つのGPUに収まりきらなくなることがあります。たとえば、最新のB200 GPUでは7400億のパラメータしか保持できず、一方でGPT-4は1.8兆のパラメータモデルです。個々のGPU間でのデータ並列処理はこの場合うまく機能しません。
Tensor Parallelism: このアプローチは、メモリ制約に対処するために、各モデルレイヤーの作業と重みを複数のGPUに分散させることで対応します。GPUは、前向きおよび後方向伝播の各ステップで、中間計算をクラスタ全体と交換します。これらのGPUは通常、NVLinkを介して接続された8台のユニットで構成されたサーバにグループ化されます。このセットアップには、GPU間の高帯域幅(最大400 Gb/s)および低レイテンシ接続が必要です。テンソルクラスタは、事実上、単一の巨大なGPUとして機能します。
パイプライン並列処理:この方法は、各GPUが特定のレイヤーを処理するようにモデルを複数のGPUに分割します。データは、リレーレースのように、各ランナー(GPU)がバトンを渡す前に自分の担当箇所を管理するように、これらのGPUを順次通過します。パイプライン並列処理は、データセンター内の異なる8GPUサーバーを接続するために特に効果的であり、高速InfiniBandネットワークを使用してサーバー間通信を行います。通信要件はデータ並列処理を超えますが、テンソル並列処理のGPU間の密集した交換よりは低いです。
現代のクラスターの規模は驚異的です。GPT-4は1,800兆のパラメーターと120層を持ち、トレーニングには25,000台のA100 GPUが必要でした。このプロセスには3ヶ月かかり、費用は6000万ドル以上かかりました。A100は2世代前のものであり、現在のB200 GPUを使用すれば、約8,000台と20日間のトレーニングで済むでしょう。AIの進化の速さを再び示すものです。
しかし、GPT-4クラスのモデルは今や古いおもちゃです。次世代の高度なモデルのトレーニングは、少なくとも4倍の計算能力を提供する、10万台のB100またはH100 GPUを搭載したデータセンターで進行中です(後者は1世代前のものです)。これらのクラスタは、GPUの資本支出だけで40億ドル以上を表し、人類の最も強力なスーパーコンピュータであり、政府所有のものの少なくとも4倍の計算能力を提供しています。
生コンピュートの確保のほか、ASI志願者はこれらのクラスタを設定しようとするときに別の問題に直面します: 電気。 これらのGPUのそれぞれが700Wの電力を消費します。 これらを10万台組み合わせると、全体のクラスタ(サポートハードウェアを含む)は150MW以上の電力を消費します。 これを具体的に説明すると、この消費量は30万人の都市と同等であり、ニューオーリンズやチューリッヒと同等です。
狂気はここで止まりません。ほとんどのASI志願者は、LLMスケーリングの法則—モデルのパフォーマンスがモデルサイズ、データセットサイズ、およびトレーニングの計算量の増加とともに予測可能に向上することを示唆するもの—は引き続き真実であるとされています。 さらに強力なモデルのトレーニングランの計画はすでに進行中です。 2025年までに、各トレーニングクラスターのコストは100億ドルを超えると予測されています。 2027年までには1,000億ドルを超えます。 これらの数字がアポロ計画に対する米国政府の投資に近づくにつれて、ASIの達成が私たちの時代の定義的なレースとして浮かび上がる理由が明確になります。
GPT-5を起動するモデルのメトリクスは推定値です
電力消費量はクラスタサイズと比例して増加するため、来年のトレーニングランは1GW以上の電力を必要とするでしょう。その次の年には、10GW以上が必要になります。この拡大の兆候が見られないため、データセンターの消費量はおおよそ消費されると予想されています2030年までに世界で生成される4.5%. 既存の電力グリッド、現行モデルの需要にすでに苦戦しています今後のクラスターのために十分なエネルギーを生成できないため、重要な問題が発生しています。これは、この電力がどこから来るのかという重要な問題を提起します。ビッグテックは、2つのアプローチを取っています。gate
長い目で見れば、唯一の実行可能な解決策は、ASI志願者が自家発電することです。気候変動への取り組みを考えると、この電力は再生可能エネルギー源から供給されなければなりません。原子力エネルギーは主要な解決策として際立っています。アマゾン最近購入650億ドルで原子力発電所で動くデータセンターキャンパス。マイクロソフト雇用されました核技術の先頭に立ち、歴史的なスリーマイル島発電所の復活. Google has 複数の小型原子炉を取得しましたカリフォルニアのKairos Powerから。 OpenAIのSam Altmanはエネルギースタートアップを支援しています。Helion, Exowatt, および Oklo.
マイクロソフトはThree Mile Island原子力発電所を再開します画像ソース)
原子力の種がいま蒔かれている一方で、その成果(または電力)を実現するには数年かかります。ただし、即時のモデル生成のためのエネルギー要件はどうでしょうか?仮の解決策として、複数のデータセンターに分散トレーニングが導入されています。MicrosoftやGoogleなどの企業は、大量の電力需要を1つの場所に集中させるのではなく、トレーニングクラスターを複数の場所に分散させています。
もちろん、課題はこれらの分散システムを効果的に連携させることです。光の速度であっても、データは米国東海岸から西海岸まで往復するのに約43msかかります。これはコンピューティング用語では永遠の時間です。さらに、1つのチップが10%遅れるだけでも、トレーニング全体が同じ割合で遅くなってしまいます。
解決策は、高速光ファイバーネットワークを使用して複数のサイトにデータセンターを接続し、以前に議論された並列処理手法の組み合わせを適用して、それらの運用を同期させることにあります。テンソル並列処理は、各サーバ内のGPUに適用され、それらを単一のユニットとして機能させます。低いネットワーク要求を持つパイプライン並列処理は、同じデータセンター内のサーバをリンクするために使用されます。最後に、異なる場所にあるデータセンター(「島」とも呼ばれます)は、データ並列処理を使用して定期的に情報を同期させます。
以前、個々のGPUには大きなモデルを独立して処理する能力がないため、データ並列処理は効果がありませんと述べました。しかし、個々のユニットではなく、数千のGPUを含む各島を並列化する場合、このダイナミックが変化します。トレーニングデータは各島に分散され、これらの島は比較的遅い(NVLinkとInfinibandに比べて)光ファイバ接続を介して定期的に同期します。
トレーニングとGPUからデータセンター自体に焦点を移しましょう。
20年前、AmazonはAmazon Web Services(AWS)を立ち上げ、歴史上最も変革的なビジネスの1つを生み出し、クラウドコンピューティングとして知られる全く新しい産業を生み出しました。今日のクラウドリーダー(Amazon、Microsoft、Google、Oracle)は、結構な支配権を持ち、年間約3000億ドルの収益を上げており、30〜40%の利益を上げています。現在、AIの台頭により、長年にわたってほぼ寡占的であった市場に新たな機会が生まれました。
GPUを利用したAIデータセンターの物理的要件、技術的複雑さ、経済性は、従来のデータセンターとは大きく異なります。
以前にも述べたように、GPUはエネルギーを多く消費します。これにより、AIデータセンターはより高い電力密度を持ち、その結果、より多くの熱を発生します。従来のデータセンターでは、巨大なファン(空冷)を使用して熱を放散していますが、この手法はAI施設では十分ではなく、経済的にも実現可能ではありません。代わりに、AIデータセンターでは、水冷システムを採用しています。このシステムでは、水ブロックがGPUや他の熱源に直接取り付けられ、熱をより効率的かつ静かに放散します。(B200 GPUはこのアーキテクチャを内蔵しています)。水冷システムをサポートするためには、大型の冷却塔、集中的な水システム施設、およびすべてのGPUに水を送り返すための配管を追加する必要があります。これはデータセンターのインフラへの基本的な変更です。
AIデータセンターは、絶対エネルギー消費量が高いだけでなく、独自の負荷要件を持っています。従来のデータセンターは予測可能な電力消費を維持していますが、AIワークロードの電力使用パターンははるかに揮発性が高いです。この揮発性は、GPUが定期的に100%の容量で動作することと、トレーニングがチェックポイントに到達すると、重みがメモリに格納されるか、先ほど見たように他の島と同期されるまで、ほぼ停止することが交互に発生するためです。AIデータセンターには、これらの負荷変動を管理するための専門の電力インフラが必要です。
GPUクラスターの構築は、通常のコンピュータークラウドの構築よりもはるかに難しいです。GPUはお互いと非常に速く通信する必要があります。これを実現するためには、非常に密に詰め込まれなければなりません。典型的なAI施設には、InfiniBand接続と呼ばれる20万本以上の特殊ケーブルが必要です。これらのケーブルを使用して、GPU同士が通信します。1本のケーブルが作動しなくなると、システム全体がシャットダウンします。そのケーブルが修理されるまで、トレーニングプロセスを続行することはできません。
これらのインフラ要件により、従来のデータセンターに高性能GPUを後付けしてAI対応にすることはほぼ不可能です。このアップグレードにはほぼ完全な構造的な大幅改装が必要です。代わりに、企業はAIに特化した新しいデータセンターを、様々な規模で構築しています。
最前線では、大手テクノロジー企業が独自のAIデータセンターの構築を競っています。Metaは自社のAI開発のためだけに施設に多額の投資を行っており、クラウドサービスを提供していないため、直接的な設備投資として扱っています。Microsoftは、自社のAIプロジェクトを強化し、OpenAIなどの主要顧客にサービスを提供するために、同様に大規模なセンターを構築しています。オラクルもこの分野に積極的に参入し、OpenAIを注目すべき顧客として確保しています。Amazonは、特にAnthropicのような新興のAI企業を支援するために、インフラストラクチャを拡大し続けています。イーロンマスクのxAIは、他の会社に依存したくなかったため、独自の100,000GPUクラスターを構築することを選択しました。
xAIの10万H100 GPUデータセンター内でソース)
既存の企業と並んで、専門のクラウドプロバイダーである「ネオクラウド」が台頭しています。これらのネオクラウドは、AIワークロードのためにGPUコンピューティングに特化しています。これらのネオクラウドは、規模に基づいて2つの異なるカテゴリに分けられています。
大手のネオクラウドプロバイダーは、Gate.ioを含め、コアウィーブ, Crusoe、とLLama Labsでは、2,000 を超える GPU のクラスターを運用できます。従来のクラウドサービスとの差別化は、標準化されたパッケージではなくカスタマイズされたインフラストラクチャソリューションを提供することと、従量課金制ではなく長期的な顧客コミットメントを要求することの2つです。
彼らのビジネスモデルは、これらの長期契約と顧客の信用力を活用して、インフラの資金調達を確保しています。収益は、特殊サービスに課されるプレミアム料金と、低い資金調達コストと顧客の支払いとの差益から得られます。
これは通常どのように機能するかです:ネオクラウドプロバイダーは、10,000 H100 GPUを月額4000万ドルで3年契約し、144億ドルの保証収入を利用して、7億ドル相当のインフラを購入し、導入するために有利な銀行融資(6%の利子)を確保します。月額4000万ドルの収入は、1000万ドルの運営費と2000万ドルのローン返済をカバーし、スタートアップはカスタムビルドされた専用のコンピューティングパワーを受け取りながら、月額1000万ドルの利益を上げます。
このモデルでは非常に慎重な顧客選択が必要です。プロバイダーは通常、大規模な現金準備金または強力なベンチャー支援を受けている企業を求めています。 これはしばしば500億ドル以上の評価が付けられています。
Small neocloudsは、2,000台以下のGPUクラスターを提供し、AI市場の別のセグメント、すなわち中小規模のスタートアップに対応しています。これらの企業は、小規模なモデル(最大700億パラメータまで)をトレーニングしたり、オープンソースのモデルを微調整したりします。(微調整とは、基本モデルを特定のユースケースに適応させるプロセスです。)これらのワークロードの両方には、短期間での適度ながらも専用の計算リソースが必要です。
これらのプロバイダーは、固定期間の時間単位のコンピューティングを提供し、中断なくクラスタへのアクセスを提供します。長期契約よりもコストはかかりますが、数百万ドルの契約を結ばずにスタートアップが柔軟に実験できるようになります。
最後に、クラウドの主要企業や新世代クラウドプロバイダーとは別に、AIインフラストラクチャスペースの中間業者であるプラットフォームと集約業者があります。これらの仲介業者はGPUインフラを所有していませんが、代わりにコンピュートリソースの所有者と必要な人々を結び付けています。
プラットフォームプロバイダーは、HydraHostとFluidstackGPUコンピューティングのShopifyとして機能します。 Shopifyがeコマースインフラを構築せずにオンラインストアを立ち上げることを可能にするのと同様に、これらのプラットフォームは、データセンターの運営者やGPU所有者が独自の顧客インターフェースを開発せずにコンピューティングサービスを提供できるようにします。 GPUコンピュートビジネスを実行するための完全な技術パッケージを提供し、インフラ管理ツール、顧客提供システム、および課金ソリューションを含みます。
次のようなマーケットプレイスアグリゲーターVast.aiGPUの世界のAmazonとして機能します。彼らは、消費者向けのRTXカードからプロのH100 GPUまでさまざまなプロバイダーからの多様なコンピュートオファリングを組み合わせたマーケットプレイスを作成します。GPU所有者は、詳細なパフォーマンスメトリクスと信頼性評価を備えたリソースをリストし、顧客は自己サービスプラットフォームを介してコンピュート時間を購入します。
これまで、私たちの議論はトレーニング(またはファインチューニング)モデルに焦点を当ててきました。しかし、一度トレーニングされたモデルは、エンドユーザーにサービスを提供するために展開する必要があります。これを推論と呼ぶプロセスです。ChatGPTとチャットしているたびに、あなたは入力を受け取り、モデルの応答を生成する推論ワークロードを実行しているGPUを使用しています。ちょっと一時的に大理石の彫像について話しましょう。
これもダビデですが、オリジナルではなく、1857年にヴィクトリア女王の依頼でロンドンのヴィクトリア&アルバート博物館のために作られた石膏のレプリカです。ミケランジェロはフィレンツェでオリジナルを作るために大理石を丹念に彫り込むのに3年間を費やしましたが、この石膏のレプリカは、ミケランジェロが作り上げた曲線、角度、細部を完璧に再現するために、彫像から直接の型取りで作られました。集中的な創造的な作業は一度だけ行われました。その後は、これらの特徴を忠実に再現することが求められました。今日、ダビデのレプリカは、博物館のホールからラスベガスのカジノの中庭まで、あらゆる場所に現れています。
これがAIでの推論の動作方法です。大規模な言語モデルのトレーニングは、ミケランジェロのオリジナルの彫刻のプロセスと似ています。計算量が多く、時間がかかり、リソースが多く必要で、モデルは何百万もの微小な調整を通じて言語の「形状」を徐々に学習します。しかし、トレーニングされたモデルを使用する推論は、レプリカを作成するようなものです。ChatGPTとチャットするとき、あなたはゼロから言語を教えるのではなく、すでに完璧になっているモデルのコピーを使用しています(ダビデの正確な曲線と角度のようなパラメータを持っています)。
推論ワークロードはトレーニングと根本的に異なる。トレーニングには、H100のような最新のGPUを使用した大規模で密集したクラスターが必要で、高度な演算を処理するためです。一方、推論は、A100や消費者向けのカードのような古いハードウェアを使用した単一のGPUサーバーでも実行できるため、コスト効率が非常に高くなります。とは言っても、推論ワークロードには独自の要求があります:
これらの特性は、推論ワークロードをスポット価格モデルに適しています。スポット価格では、GPUリソースを大幅に割引価格で利用できます(通常、オンデマンド価格の30〜50%割引)。ただし、優先度の高い顧客がリソースを必要とする場合には、サービスが一時停止する可能性があります。このモデルは、推論に適しているため、中断があった場合に素早く利用可能なGPUにワークロードを移動できます。
このGPUとAIクラウドコンピューティングの背景の中で、私たちはついにこれらすべてに暗号通貨がどこに適合するかを探求する立場にいます。 さあ、(ついに)始めましょう。
プロジェクトやレポートでは、しばしばPeter Thielの観察結果を引用しています。「AIは中央集権化しており、暗号通貨は分散化している」といった内容は、暗号通貨がAIトレーニングにおける役割を議論する際に頻繁に引用されます。Thielの発言は間違いなく真実ですが、強力なAIをトレーニングする際にビッグテックの明らかな優位性の証拠がたくさん見られるため、しばしば誤解され、暗号通貨や分散型コンピューターがビッグテックの影響を相殺する主要な解決策を提供していると誤解されることがあります。
このような主張は、以前の仮想通貨がソーシャルメディアやゲーム、そして数多くの他の産業を革新する可能性についての誇大広告を反映しています。これらの主張は、生産的ではなく、そして私がまもなく主張するように、現実的には少なくとも短期間には実現不可能です。
代わりに、私はより実用的なアプローチを取るつもりです。分散化の原則やビッグテックへの理念的な反対に関心を持つAIスタートアップは、コンピュートを探していると仮定します。むしろ、彼らは問題を抱えています—彼らは可能な限り低コストで信頼性のあるGPUコンピュートにアクセスしたいと考えています。もし暗号プロジェクトが非暗号の代替手段よりもこの問題に対するより良い解決策を提供できるのであれば、彼らはそれを使用します。
そのため、まず、暗号プロジェクトが競合している相手を理解しましょう。前述のように、AIクラウドプロバイダーの異なるカテゴリーについて議論しました。Big Techとハイパースケーラー、ビッグネオクラウド、スモールネオクラウド、プラットフォームプロバイダー、そしてマーケットプレイス。
分散型コンピューティング(すべてのDePINプロジェクトと同様)の基本的なテーゼは、現在のコンピュート市場が非効率的に運営されているということです。GPUの需要は非常に高く、供給はグローバルなデータセンターや個人の家庭に分散し、十分に活用されていません。このセクターのほとんどのプロジェクトは、この散らばった供給を集約して非効率性を減らすことで、マーケットプレイスと直接競合しています。
それが確立されたら、これらのプロジェクト(および一般的なコンピューティングマーケットプレイス)が、さまざまなAIワークロード(トレーニング、微調整、推論)にどのように役立つかを見てみましょう。
まず最初に。いいえ、ASIは分散型GPUのグローバルネットワークでトレーニングされるわけではありません。少なくとも、現在のAIの軌道ではそうなりません。以下にその理由を説明します。
以前、私たちは基礎モデルのクラスターがどれほど大きくなっているかについて話しました。競争を始めるためには、世界で最もパワフルなGPUが100,000台必要です。この数値は年々増加しているだけです。2026年までに、トレーニングランの費用は1000億ドルを超えると予想され、おそらく100万台以上のGPUが必要になります。
唯一、主要なネオクラウドと直接的なNvidiaパートナーシップに支えられたビッグテック企業だけが、このような規模のクラスタを組み立てることができます。覚えておいてください、私たちはASIのために競争しており、すべての参加者は非常に意欲的で資本があります。これだけの多くのGPUが追加供給される場合(されていません)、それらを最初に手に入れるでしょう。
仮想通貨プロジェクトがどのような手段を講じても、分散型人工知能(ASI)の開発には2つの根本的な障害があります。
まず、GPUは効果的に機能するためには、まだ大規模なクラスタに接続する必要があります。これらのクラスタが都市の島々に分かれていても、専用の光ファイバーラインで接続する必要があります。これらのいずれも、分散型の設定では可能ではありません。GPUの調達に加えて、AI対応のデータセンターの設立には細心の計画が必要です。通常、1~2年のプロセスです。(xAIはわずか122日でそれを行いましたが、おそらくElonは近い将来トークンを発行する予定はありません。)
第二に、AIデータセンターを作るだけでは、超知能AIを生み出すのに十分ではありません。Anthropicの創設者であるダリオ・アモデイとして最近説明しました, AIのスケーリングは化学反応に似ています。化学反応が進行するためには、正確な割合で複数の試薬が必要ですが、成功したAIのスケーリングには、大きなネットワーク、長いトレーニング時間、そして大きなデータセットという3つの重要な要素が同時に成長する必要があります。他の成分を増やすことなく一つの成分を拡大すると、プロセスは停滞します。
どうやっても計算機を蓄積し、クラスタを連携させることができたとしても、訓練済みモデルを有効にするためには高品質なテラバイトのデータが必要です。ビッグテックの独自のデータソースやオンラインフォーラムやメディアとの数百万ドルの契約を結ぶための資本、または合成データを生成する既存のモデルがなければ、適切な訓練データを取得することは不可能です。
最近、スケーリングの法則が頭打ちになり、LLMがパフォーマンスの上限に達する可能性があるという憶測があります。これを分散型AI開発のきっかけと解釈する人もいます。しかし、これは重要な要素である人材の集中を見落としています。今日のビッグテック企業やAIラボには、世界有数の研究者が集まっています。汎用人工知能への画期的な代替パスは、これらのセンターから出現する可能性があります。競争の激しい環境を考えると、このような発見は厳重に警戒されるでしょう。
これらの議論をすべて考慮すると、ASIのトレーニング、または世界で最も強力なモデルのトレーニングは、分散コンピュートプロジェクト上でトレーニングされないということは99.99%確信しています。その場合、仮想通貨は実際にどのようなモデルのトレーニングに役立つことができるのでしょうか?
異なる地理的位置に配置された別々のGPUクラスター間でモデルをトレーニングするためには、それらの間にデータ並列処理を実装する必要があります(データ並列処理は、トレーニングデータの異なるチャンクで作業する各GPUの島々が互いに同期する方法です)。トレーニングされるモデルが大きくなるほど、これらの島々の間で交換する必要があるデータ量も増加します。先駆的なモデルの場合、1兆を超えるパラメーターを持つモデルでは、必要な帯域幅が大きすぎて、専用の光ファイバ接続が必要です。
ただし、より小さいモデルの場合、帯域幅の要件は比例して減少します。特に遅延同期において、低通信トレーニングアルゴリズムの最近の突破は、分散型の方法で小~中規模のモデルをトレーニングするための有望な機会を生み出しました。これらの実験的な取り組みを主導しているのは2つのチームです。
Nous Researchは、AIアクセラレータ企業であり、オープンソースのAI開発における主要なプレイヤーです。彼らは、言語モデルのHermesシリーズやWorld Simなどの革新的なプロジェクトで最もよく知られています。今年初め、彼らは数ヶ月間、LLMランキングのBitTensorサブネットを運営していました。彼らは分散コンピュートに踏み込み、DisTrO(分散トレーニングオーバーインターネット)プロジェクトでは、1.2BパラメータのLlama-2モデルを正常にトレーニングし、GPU間の帯域幅要件を857倍削減しました。
Nous ResearchによるDisTrOレポート
プライムインテレクトは、分散型AIのインフラを大規模に開発するスタートアップ企業で、グローバルなコンピューティングリソースを集約し、分散システムを通じて最先端のモデルの共同トレーニングを可能にすることを目指しています。彼らのOpenDiLoCoフレームワーク(DeepMindの分散低通信方法)は、2つの大陸と3つの国をまたいで、90-95%の計算利用率を維持しながら、10億パラメータのモデルを成功裏に訓練しました。
しかし、これらの分散トレーニングランはどのように機能しますか?
従来のデータ並列処理では、GPUはトレーニングステップごとに重みを共有して平均化する必要がありますが、インターネット接続では不可能です。代わりに、これらのプロジェクトでは、各GPUの「島」が同期する前に何百ものステップで独立してトレーニングを行うことができます。それは同じプロジェクトに取り組む独立した研究チームのようなものです。常にお互いに確認するのではなく、彼らは自分たちの発見を共有する前に独自の進歩を重ねています。
DisTrOとOpenDiLoCoは、デュアルオプティマイザーアプローチを使用して、500ステップごとに同期します。
同期が行われると、すべての重みを共有するのではなく、現在の重みと前回の同期時の重みの差を「疑似勾配」として共有します。これは非常に効率的であり、ドキュメント全体を毎回送信するのではなく、変更された部分のみを共有するのと同様です。
INTELLECT-1Prime IntellectによるOpenDiLoCoの実用的な実装であるは、これまでで最大の分散トレーニング取り組みとして、10Bパラメータモデルのトレーニングをさらに進めています。彼らは次のような重要な最適化を追加しました:
世界中に分散された20以上のGPUクラスターで訓練されたINTELLECT-1が最近完了しました事前トレーニングそして、まもなく完全なオープンソースモデルとしてリリースされます。
INTELLECT-1トレーニングダッシュボード
Teams like マクロコスモスは類似のアルゴリズムを使用していますモデルを訓練するBittensorエコシステム内。
もしこれらの分散トレーニングアルゴリズムが改善を続ければ、次世代のGPUで最大1000億パラメータのモデルをサポートすることができるかもしれません。このような大規模なモデルでも、さまざまなユースケースに非常に役立つことがあります:
ファインチューニングとは、事前にトレーニングされた基本モデル(通常はMeta、Mistral、またはAlibabaのオープンソースモデル)を特定のデータセットでさらにトレーニングし、特定のタスクやドメインに適応させるプロセスのことです。これには、モデルがすでに一般的な言語パターンを学習しているため、ゼロからトレーニングするよりもはるかに少ない計算量が必要で、新しいドメインに対して重みを調整するだけです。
モデルサイズに応じた微調整スケールの計算要件。H100でのトレーニングを想定しています。
これらの仕様を考慮すると、微調整には以前に説明した複雑な分散トレーニングアルゴリズムは必要ありません。開発者が短期間の集中的な期間にGPUクラスタを借りるオンデマンドモデルは、十分なサポートを提供します。頑強なGPU供給がある分散コンピュートマーケットプレイスは、これらのワークロードを処理するために理想的に配置されています。
推論は、分散コンピュートマーケットプレイスが製品市場適合性を最も明確に持つ場所です。皮肉なことに、これは分散トレーニングの文脈で最も議論されていないワークフローです。これは2つの要因によるものです。推論は、10万のGPU「ゴッドモデル」トレーニングランの魅力に欠けており、また、AI革命の現在の段階のために部分的にそうです。
今日を基準にすると、コンピュートの大部分は確かにトレーニングに向けられています。ASIへの競争は、トレーニングインフラストラクチャへの大規模な前払い投資につながっています。しかしながら、AIアプリケーションが研究から本番へ移行するにつれ、このバランスは必然的に変化します。AIに基づくビジネスモデルが持続可能であるためには、推論から得られる収益がトレーニングと推論の両方のコストを上回る必要があります。GPT-4のトレーニングは非常に高額でしたが、それは一度の費用でした。現在のコンピュートの費用とOpenAIの収益性への道筋は、数十億の推論リクエストの支払い顧客への提供によって駆動されています。
コンピューティング市場は、分散型であろうとなかろうと、世界中のさまざまな GPU モデル (新旧) を集約する性質上、推論ワークロードを提供する独自の立場にあります。
コンピューティングマーケットプレイスは、分散型か従来型かにかかわらず、多様なGPUモデル(現在とレガシーの両方)をグローバルに集約することで、推論ワークロードに自然に優れています。その固有の利点は、広範な地理的分布、一貫したアップタイム、システムの冗長性、GPU 世代間の互換性など、推論の要件と完全に一致しています。
異なるワークフローで分散コンピュートがどのように役立ち、役立たないかについて議論しました。さて、もう1つ重要な質問に答える必要があります。開発者がなぜ中央集権的なプロバイダーではなく分散型のプロバイダーからコンピュートを確保することを選択するのでしょうか?分散型ソリューションが提供する魅力的な利点は何でしょうか?
ステーブルコインは、従来の国際送金に優れた代替手段を提供することで、プロダクトマーケットの適合を実現しました。大きな要因の一つは、ステーブルコインが単純に安いということです!同様に、AI開発者がクラウドプロバイダを選択する際の最大の要因はコストです。分散型コンピュートプロバイダが効果的に競争するためには、まず優れた価格設定を提供する必要があります。
コンピュートマーケットプレイスは、すべてのマーケットプレイスと同様に、ネットワーク効果のビジネスです。プラットフォーム上のGPUの供給が増えれば増えるほど、顧客の流動性と利用可能性が高まり、それによってより多くの需要が集まります。需要が増えると、これはより多くのGPUオーナーがネットワークに参加することを促し、好循環を作り出します。供給の増加は、より競争力のある価格設定を可能にし、より適切なマッチングとアイドルタイムの削減を通じて、より競争力のある価格設定を実現します。顧客が魅力的な料金で必要なコンピュートを一貫して見つけることができると、プラットフォーム上での技術的な依存関係を築く可能性が高くなり、これはさらにネットワーク効果を強化します。
このダイナミックは特に推論において非常に強力であり、供給の地理的な分布が実際にエンドユーザーの遅延を減らすことで製品提供を向上させることができる。規模でこの流動性フライホイールを達成する最初のマーケットプレイスは、両方の供給業者と顧客がプラットフォームのツールやワークフローに統合した後に切り替えコストに直面するため、著しい競争上の優位性を持つことになります。
GPUマーケットプレイスネットワークエフェクトフライホイール
そのような勝者独占市場では、ネットワークのブートストラップそして、脱出速度に到達することが最も重要なフェーズです。ここでは、暗号通貨が分散型コンピュートプロジェクトに非常に強力なツールを提供しています。これは、中央集権型の競合他社が持っていないトークンのインセンティブです。
メカニズムは簡単かつ強力になり得ます。プロトコルはまず、インフレーションリワードスケジュールを含むトークンを発行し、おそらく初期配分を早期の貢献者にエアドロップを通じて行います。これらのトークンのエミッションは、マーケットプレイスの両側をブートストラップするための主要なツールとして機能します。
GPUプロバイダーにとって、報酬体系は慎重に設計する必要があり、供給側の行動を形成するために。プロバイダーは、自分の計算と利用率に比例したトークンを獲得するが、システムは単純な線形報酬を超えるべきです。プロトコルは、地理的またはハードウェアタイプの不均衡を解消するために、ダイナミックな報酬の乗数を実装することができます。これは、Uberが高需要地域のドライバーをインセンティブするためにサージ価格を使用しているのと似ています。
プロバイダーは、サービスが行き届いていない地域でコンピューティングを提供することで 1.5 倍の報酬を獲得し、一時的に不足している GPU の種類を提供することで 2 倍の報酬を得ることができます。一貫した利用率に基づいて報酬システムをさらに階層化することで、プロバイダーはプラットフォームを日和見的に切り替えるのではなく、安定した可用性を維持できるようになります。
需要側では、顧客は使用を効果的に助成するトークン報酬を受け取ります。このプロトコルは、コンピューティングのコミットメントが長くなると報酬が増加し、ユーザーがプラットフォームに対してより深い技術的依存関係を構築するインセンティブを与える可能性があります。これらの報酬は、特定の地域での需要の獲得など、プラットフォームの戦略的優先事項に合わせてさらに構造化することができます。
コンピュートの基本レートは、市場レートと同じか、わずかに下回る可能性があります。プロトコルは、zkTLSオラクル競合他社の価格を継続的に監視し、マッチングするためにトークン報酬を使用します。これにより、競争力のある基本料金に加えて、トークン報酬が追加のインセンティブ層として機能します。この二重価格モデルにより、プラットフォームは価格競争力を維持しながら、トークンのインセンティブを利用してネットワークを強化する特定の行動を促進することが可能です。
トークンのインセンティブを配布することで、プロバイダーと顧客の両方がネットワークにステークを蓄積し始めます。おそらくほとんどの人はこれらのステークを売却するかもしれませんが、他の人はそれらを保持し、事実上プラットフォームのステークホルダーおよび布教者となります。これらの関与した参加者はネットワークの成功に強い関心を持ち、直接の利用やコンピュートリソースの提供を超えた成長と採用に貢献します。
時間が経つにつれて、ネットワークが脱出速度に達し、強力なネットワーク効果を確立すると、これらのトークンインセンティブは徐々に縮小されることができます。最大のマーケットプレイスであることの自然な利点は、より良いマッチング、より高い利用率、より広範な地理的カバレッジとなり、成長の持続可能なドライバーになります。
トークンインセンティブがGPUマーケットプレイスのフライホイールを急速に推進する方法
価格と範囲は重要な違いをもたらしますが、分散型計算ネットワークは、集中型プロバイダーからの運用制限という成長する懸念に対処します。従来のクラウドプロバイダーは、既にサービスの一時停止や終了の意志を示しています。コンテンツポリシーと外部のプレッシャーこれらの前例は、同様の政策がAIモデルの開発と展開にどのように拡大するかについての合理的な疑問を投げかけています。
AIモデルがより洗練され、ますます多様なユースケースに取り組むにつれて、クラウドプロバイダーは既存のコンテンツモデレーション手法と同様に、モデルのトレーニングと提供に制限を設ける可能性があります。これは、NSFWコンテンツや物議を醸すトピックだけでなく、医療画像、科学研究、クリエイティブな芸術など、過度に慎重な自動フィルターを引き起こす可能性のある正当なユースケースにも影響するかもしれません。
分散化されたネットワークは、市場参加者が自分自身のインフラストラクチャの決定を下すことを可能にすることによって、革新のためにより自由で制限の少ない環境を作り出すことができるため、代替手段を提供しています。
許可されていないアーキテクチャの反対側は、プライバシーがより難しくなることです。コンピューティングが単一の信頼できるエンティティのデータセンター内に含まれるのではなく、プロバイダーのネットワーク全体に分散される場合、開発者はデータセキュリティについて注意深く考える必要があります。暗号化や信頼できる実行環境が役立つかもしれませんが、検閲耐性とプライバシーの間には、開発者が自分たちの特定の要件に基づいて航行する必要がある固有のトレードオフがあります。
AIコンピューティングの需要が急増しているため、GPUプロバイダーは成功した顧客から最大限の利益を得るために、その立場を利用することができます。昨年の投稿では、有名な個人開発者である Pieter Levels 氏が、AI アプリの収益数値を公開した後、プロバイダーが突然 600% 以上も価格を引き上げたことを、彼と他の開発者がどのように経験したかを共有しました。
分散システムはこの問題に対抗する手段を提供できます - 信頼できる契約の強制力。契約がオンチェーンでエンコードされると、利用規約に埋もれるのではなく、透明で変更不可能になります。プロバイダーはプロトコルを通じて明示的に同意されない限り、価格を任意に引き上げたり契約条件を途中で変更したりすることはできません。
価格設定を超えて、分散型ネットワークは活用できます信頼された実行環境(TEEs)検証可能なコンピューティングを提供します。これにより、開発者は、ハードウェアの仕様と専用アクセスの両面で、支払った GPU リソースを実際に手に入れることができます。たとえば、開発者がモデル トレーニング用に 8 つの H100 GPU への専用アクセスに料金を支払った場合、暗号化証明により、ワークロードがローエンド カードに暗黙的にダウングレードされたり、他のユーザーとリソースを共有したりするのではなく、GPU あたり 80 GB のメモリを搭載した H100 で実際に実行されていることを検証できます。
分散型コンピューターネットワークは、開発者に本当に許可なしの選択肢を提供できます。従来のプロバイダーとは異なり、これらのネットワークに誰でも参加し、コンピューティングリソースを利用または提供を開始できます。これにより、特に新興市場の開発者や実験的なプロジェクトに取り組む開発者の参入障壁が大幅に低下します。
この許可されていない性質の重要性は、AIエージェントの未来を考えるとさらに強力になります。 AIエージェントは、たった垂直統合エージェントSaaS業界の規模を超えることが期待されています。ゲートのようなものと一緒にトゥルース・ターミナルそしてゼレブロ現在、エージェントが自律性を獲得し、ソーシャルメディアや画像生成ツールなどの外部ツールの使用方法を学ぶ最初の兆候が見られています。
これらの自律システムがより高度になるにつれて、独自のコンピューティング リソースを動的にプロビジョニングする必要が生じる場合があります。人間の仲介者ではなく、コードによってトラストレスに契約を実行できる分散型ネットワークは、この未来の自然なインフラストラクチャです。エージェントは、人間の介入や承認を必要とせずに、契約の交渉、パフォーマンスの監視、需要に応じたコンピューティング使用量の調整を自律的に行うことができます。
分散型コンピュートネットワークの概念は新しいものではありません。現在のAIブームよりもずっと前から、プロジェクトは希少なコンピューティングリソースへのアクセスを民主化しようとしてきました。レンダーネットワーク2017年から運営されており、コンピュータグラフィックスのレンダリングに向けたGPUリソースを集約しています。アカシュlaunched in 2020 to create an open marketplace for general compute. Both projects found moderate success in their niches but are now focussing on AI workloads.
同様に、ゲートのような分散型ストレージネットワークは、Filecoinそしてアーウィーブare expanding into compute. They recognise that as AI becomes the primary consumer of both storage and compute, offering integrated solutions makes sense.
従来のデータセンターが特化したAI施設と競争に苦しんでいるように、これらの確立されたネットワークもAIネイティブソリューションに対して大変な戦いを強いられています。彼らはAIワークロードに必要な複雑なオーケストレーションを実行するためのDNAを持っていません。代わりに、彼らは他のAI特化ネットワークへのコンピューティングプロバイダーとしての地位を見つけています。例えば、RenderとAkashの両者は現在、io.netのマーケットプレイスでGPUを利用できるようにしています。
これらの新しいAIネイティブマーケットプレイスは誰ですか?io.netは、エンタープライズグレードのGPU供給を集約する初期のリーダーの1つであり、ネットワーク上に300,000を超える検証済みGPUがあります。彼らは、中央集権的な既存企業よりも90%のコスト削減を提供すると主張しており、25,000ドル(年間900万ドル)以上の毎日の収益に達しています。同じようにAethirAIおよびクラウドコンピューティングのユースケースに対応するために、40,000以上のGPU(H100を含む4,000以上)を集約しています。
以前、私たちはPrime Intellectが分散トレーニングのためのフレームワークを大規模に作成している方法について話しました。これらの取り組みに加えて、彼らはまた、ゲートを提供しています。GPUマーケットプレイスユーザーがオンデマンドでH100をレンタルできる場所。ゲートシンは、同様のトレーニングフレームワークとGPUマーケットプレイスのアプローチを採用した、分散型トレーニングに大きく賭ける別のプロジェクトです。
これらはすべてワークロードに依存しないマーケットプレイスです(トレーニングと推論の両方をサポートしています)。ただし、いくつかのプロジェクトは推論のみに焦点を当てており、私たちが最も興奮している分散コンピュートワークロードです。その中でも主要なものはExo Labsで、ユーザーがフロンティアレベルのLLMsを日常のデバイス上で実行できるようにしています。彼らはAI推論タスクをiPhone、Android、およびMacなどの複数のデバイスに分散させるためのオープンソースプラットフォームを開発しました。最近デモンストレーションされました4つのM4 Pro Mac Minisに分散された70-Bモデル(最大400-Bまでスケーラブル)を実行しています。
2008年にサトシがビットコインを立ち上げたとき、その利点であるデジタルゴールドと硬い供給、検閲に耐えるお金は純粋に理論的でした。伝統的な金融システムは欠陥があるにもかかわらず機能していました。中央銀行はまだ前例のないお金の印刷を始めていませんでした。国際制裁はまだ経済全体に対して武器として使われていませんでした。代替手段の必要性は、緊急ではなく学問的に思われました。
量的緩和に10年かかり、COVID時代の金融拡大に至るまで、ビットコインの理論的な利点が具体的な価値に結晶化するのに時間がかかりました。今日、インフレが貯蓄を侵食し、地政学的な緊張がドルの支配を脅かす中、ビットコインは「デジタルゴールド」としての役割を、サイファーパンクの夢から、機関投資家や国家によって採用される資産へと進化させました。
このパターンはステーブルコインでも繰り返されました。一般的な目的のブロックチェーンであるEthereumが利用可能になるとすぐに、ステーブルコインは最も有望なユースケースの1つとなりました。しかし、技術の進化やアルゼンチンやトルコのような国の経済がインフレに襲われるまでには数年の改善が必要でした。それによって、ステーブルコインはニッチな暗号通貨のイノベーションから、年間数兆ドルの取引量を動かす重要な金融インフラへと進化しました。
暗号通貨は本質的に防御的な技術であり、良い時には必要性がないように見えるが、危機の際には重要性が増す。これらの解決策の必要性は、既存のシステムが失敗するか、真の姿を現す場合にのみ明らかになります。
今日、私たちはAIの黄金時代を生きています。ベンチャーキャピタルが自由に流れ、企業は最低価格を提供し競争し、制限がある場合でもまれです。この環境では、分散化された代替手段は不要に見えるかもしれません。従来のプロバイダーがうまく機能するとき、なぜトークン経済や証明システムの複雑さを扱うのでしょうか?
しかし、過去の主要な技術の波に従って判断すると、この善意は一時的なものです。私たちはAI革命にわずか2年しか経っていません。技術が成熟し、AI競争の勝者が現れると、彼らの真の力が現れるでしょう。今日寛大なアクセスを提供している同じ企業が、最終的には価格設定、ポリシー、許可を通じて制御を行うようになります。
これはただの別の技術サイクルではありません。AIは文明の新しい基盤となりつつあります。情報を処理し、芸術を創造し、意思決定をし、最終的には種として進化するためのレンズとして機能します。コンピュートは単なるリソース以上のものです。それは知性そのものの通貨です。その流れを制御する者が人類の認知の最前線を形作るでしょう。
分散化された計算は、より安価なGPUやより柔軟な展開オプションを提供することには関係ありません(成功するためには両方を提供する必要があります)。それは人類最も変革的な技術である人工知能へのアクセスが検閲できず、主権を持つことを保証することです。それはAIを使用できる人だけでなく、それをどのように使うかを決めるのは少数の企業ではない、避けられない未来に対する私たちの盾です。
今日、これらのシステムを構築しているのは、ただちに必要というわけではなく、明日には必須となるからです。AIがお金と同じくらい社会にとって基本的なものになるとき、許可なしのコンピュートは単なる代替手段ではなく、デジタル覇権に対抗するためにビットコインやステーブルコインが金融統制に対抗するのと同じくらい重要になります。
分散システムの手の届かない人工的な超知能の競争かもしれません。しかし、この知能の成果がすべてにアクセス可能であることを確認することは、走る価値のある競争です。
オリジナルタイトル:分散型コンピューティングの転送
今日の記事では、暗号の分野における新興でありながらしばしば誤解されている分散型コンピューティングについて取り上げます。AIインフラストラクチャの景観に深く入り込み、分散型の代替手段が現実的にどこで競争できるかを理解していきます。
ASIは分散ネットワークで訓練することは可能か?暗号ネットワークが提供する独特の利点は何か?そして、なぜ許可なしの計算基盤がAIにとってビットコインが金融にとって重要であるかのようになる可能性があるのかなど、私たちは次のような問いを探求します。
記事でよく見られる共通のパターンは、AIのすべて(投資、計算、機能)の指数関数的な成長です。これは、暗号通貨市場と関心の復活と一致しています。これら2つの主要なテクノロジーの波の交差点に非常に興奮しています。
こんにちは!
テネシーメンフィスの晴れた日に、プロペラスパイプレーンが産業ビルの上空を何度も循環し、その乗客は必死に下の施設を写真に収めました。これは冷戦のスパイ活動ではなく、2024年の出来事でした。目標は軍事施設やウラン濃縮施設ではなく、かつての家電工場で、今では世界でも最も強力なスーパーコンピュータを収容しています。乗客は外国のエージェントではなく、ライバルのデータセンター企業の従業員でした。
数十年ごとに、文明の軌道を疑いなく変える可能性がある変革的な技術が出現します。その後、世界で最も強力なエンティティがこの技術を最初に実現するための競争が繰り広げられます。報酬は非常に巨大であり、失敗の影響は壊滅的なため、これらのエンティティは迅速に人材と資本を含む全力を挙げて技術の習得に向けて動きます。
20世紀には、この定義に合致する2つの傑出した技術がありました。それは核兵器と宇宙探査です。これらの技術を利用しようとする競争には、最も強力な国家が関与しました。アメリカの両方での勝利は、世界の覇権国としての地位を確立し、並外れた繁栄の時代をもたらしました。敗者であるナチス・ドイツとソビエト連邦にとって、その結果は壊滅的でさえありました。
アメリカ、テネシー州オークリッジにある44エーカーの巨大なK-25工場は、最初の原子爆弾のウランが生産された場所です(ソース)
アメリカの勝利は莫大な代償をもたらしました。マンハッタン計画は約20億ドル(インフレーションを考慮して約300億ドルに相当)かかり、12万人以上(アメリカ人の千人に一人)が従事しました。宇宙競争はさらに大きな資源を要求しました。アポロ計画は1960年代に280億ドル(現在の価値にして約3,000億ドル)かかり、40万人以上(アメリカ人の490人に一人)が関与しました。1966年のピーク時には、NASAは全米連邦予算の4.4%を占めました。
月へのミッションに向けて打ち上げ直前のアポロ11号ソース)
2022年にChatGPTがローンチされ、人類の文明を変えるような人工超知能(ASI)の追求の幕が開けました。AIはすでに日常生活に組み込まれており、ソーシャルメディアのフィード、Netflixのおすすめ、メールのスパムフィルターを管理していますが、大規模言語モデル(LLM)の出現は、人間の生産性、メディアの創造、科学的研究、そしてイノベーションそのものを変革することを約束しています。
今回は、競争相手は国家ではなく(少なくともまだ)、世界最大の企業(マイクロソフト、グーグル、メタ、アマゾン)、最も注目を集めるスタートアップ(OpenAI、Anthropic)、そして最も裕福な個人(イーロン・マスク)です。ビッグテックは前例のない資金を注いで、ますます強力なモデルを訓練するためのインフラを構築している一方、スタートアップは安定を確保しています。記録破りベンチャーキャピタルの資金調達。 イーロンは、まあ、エロンのようなことをしています(監視下のデータセンターは彼の会社、xAIのものでした)。
そして、それ以外の全ての人々がいます-企業、中小企業、スタートアップ-彼らはASIを構築することを望んでいないかもしれませんが、AIによって解放される最先端の機能を利用してビジネスを最適化したり、業界を破壊したり、完全に新しい業界を作り出したりしたいと思っています。潜在的な報酬は非常に大きいため、誰もがこの新しい機械知能駆動の経済の一部を手に入れようと奮闘しています。
AI革命の中心には、その最も重要な要素があります: グラフィックス処理ユニット(GPU)。もともとはビデオゲームの動力源として設計されたこの特殊なコンピュータチップは、世界で最も注目される商品となっています。GPUの需要は非常に大きく、企業はしばしば耐え忍ぶことがあります 数ヶ月にわたる待ちリストわずか数台を入手するために。この需要により、彼らの主要な製造業者であるNVIDIAは、世界で最も価値のある会社の地位に押し上げられました。
GPUを直接購入できないまたは購入する意欲がない企業にとって、計算能力をレンタルすることが次の最善の選択肢となっています。これにより、AIクラウドプロバイダーの台頭が促進されています。これらの企業は、AIブームの計算ニーズを満たすために特化した洗練されたデータセンターを運営しています。しかし、需要の急増と予測不可能な性質から、価格や供給の保証はありません。
私 主張した仮想通貨は「コアシアン」テクノロジーとして機能し、他の破壊的なイノベーションが繁栄するために「車軸を潤滑し、道路を舗装し、橋を強化する」ことを目指しています。AIが私たちの時代の変革の力として浮上するにつれて、GPUへのアクセスの希少性と過剰なコストはイノベーションの障壁となっています。いくつかの仮想通貨企業がブロックチェーンベースのインセンティブでこれらの障壁を取り払うことを目指して取り組んでいます。
本日の記事では、まず暗号通貨から一歩引いて、現代のAIインフラの基本を調査します。ニューラルネットワークがどのように学習するか、なぜGPUが欠かせないものとなってきたか、そしてどのように今日のデータセンターが前例のない計算要求に対応しているかについて見ていきます。その後、分散コンピュートソリューションについて探求し、それがどこで従来のプロバイダーと実際に競争できるのか、暗号ネットワークが提供する独自の利点、そしてなぜAGIを提供しないにせよ、AIの利点がすべての人にアクセス可能であることを確保するために依然として不可欠である理由について深堀りします。
まず、なぜGPUがそもそも重要なのかから始めましょう。
これは、イタリアのルネサンス期の天才、ミケランジェロによって作られた、17フィートの背の高い、6トンの大理石の彫刻であるダビデです。これは、ダビデとゴリアテの物語からの聖書の英雄を描いており、人間の解剖学の完璧な表現と透視と細部への巧妙な注意により、傑作とされています。
すべての大理石の彫刻と同様に、ダビデはカッラーラ大理石の巨大な粗い板から始まりました。最終的な壮大な形になるために、ミケランジェロは石を徹底的に彫り落とさなければなりませんでした。まずは基本的な人間の形を確立するために広く大胆な筆触から始め、筋肉の曲線、静脈の緊張、目の決意の微妙な表現など、ますます細かいディテールに進んでいきました。ミケランジェロはダビデを石から解放するのに3年かかりました。
しかし、なぜAIの記事で500年前の大理石の彫刻像について議論するのでしょうか?
デビッドのように、すべてのニューラルネットワークは純粋な潜在能力として始まります。ランダムな数値(重み)で初期化されたノードの集まりは、カッラーラ大理石の巨大なブロックと同じように、無形です。
この生のモデルは、訓練データとその正しい出力の無数のインスタンスと共に繰り返しフィードされます。ネットワークを通過する各データポイントは、数千回の計算をトリガーします。各ノード(ニューロン)では、入力値を接続の重みで乗算し、これらの積を合計し、ニューロンの発火強度を決定する「活性化関数」を介して結果を変換します。
ミケランジェロが自分の作品を見つめ直し、評価し、修正するように、ニューラルネットワークも磨きをかけます。各順方向のパスの後、ネットワークは出力を正解と比較し、誤差のマージンを計算します。バックプロパゲーションというプロセスによって、各接続が誤差にどれだけ貢献したかを測定し、ミケランジェロの彫刻刀のように値を調整します。接続が正しい予測につながる場合、その影響力は強まります。逆に、誤った予測につながる場合、その影響力は低下します。
すべてのデータがネットワークを通過すると(データポイントごとに1つの順方向および逆方向の伝搬ステップを完了する)、それは「エポック」の終わりを示します。このプロセスは複数回繰り返され、各パスでネットワークの理解が磨かれます。初期のエポックでは、ネットワークが大幅な調整を行うために重みの変化は劇的であり、最初の大胆な彫刻ストライクのようです。後のエポックでは、変更はより微妙になり、最適なパフォーマンスのために接続を微調整するためのものであり、細かい最終的なタッチがDavidの詳細を引き出したのと同様です。
ついに、何千回も何百万回もの繰り返しの後、訓練されたモデルが現れます。完成形で誇らしげに立っているデイビッドのように、ニューラルネットワークはランダムなノイズからパターンを認識し、予測を行い、スクーターに乗る猫の画像を生成し、コンピュータが人間の言語を理解し、応答することができるシステムへと変わります。
ミケランジェロは、ダビデに取り組んでいる間、1回の彫刻のために1回の彫刻のみが可能であり、そのためには角度、力、位置の正確な計算が必要でした。この煩雑な正確さのために、彼が傑作を完成させるのに3年間もかかりました。しかし、完全な連携で働く数千人もの同様に熟練した彫刻家がダビデに取り組んだと想像してみてください。髪の毛の巻き毛に取り組むチーム、胴体の筋肉に取り組む別のチーム、そして顔、手、足の緻密なディテールに取り組む何百ものチームがいます。そのような並列的な取り組みによって、その3年間は僅かな数日に短縮されるでしょう。
同様に、CPU は強力で正確ですが、一度に 1 つの計算しか実行できません。ニューラルネットワークのトレーニングには、単一の複雑な計算ではなく、何億もの単純な計算(主に各ノードでの乗算と加算)が必要です。たとえば、前述のサンプル ニューラル ネットワークは、わずか 18 個のノードと約 100 個の接続 (パラメーター) で、妥当な時間枠内で CPU でトレーニングできます。
しかし、現在の最も強力なモデルであるOpenAIのGPT-4には1,800億のパラメータがあります!さらに小さな現代のモデルでも少なくとも10億のパラメータを含んでいます。これらのモデルを一つずつ計算してトレーニングするには、何世紀もかかるでしょう。ここでGPUが優れているのです。彼らは同時に多数の単純な数学計算を実行できるため、並列で複数のニューラルネットワークノードを処理するのに最適です。
モダンなGPUは驚くほど強力です。たとえば、NVIDIAの最新のB200 GPUは、2000億を超えるトランジスタで構成され、1秒あたり2,250兆の並列演算をサポートしています(2,250 TFLOPS)。単一のB200 GPUは7400億個のパラメータを持つモデルを処理できます。これらのマシンは現代のエンジニアリングの偉業を表しており、NVIDIAは1台あたり40,000ドルで販売しているため、5年間で株価が2,500%以上上昇しています。
ジェンセン・ファングがNVIDIA B200を発表
しかし、これらの強力なマシンでもAIモデルを単独でトレーニングすることはできません。トレーニング中、各データインスタンスは個別にモデルを前方および後方に通過する必要があります。現代の大規模言語モデル(LLMs)は、インターネット全体を網羅するデータセットでトレーニングされています。たとえば、GPT-4は推定12兆トークン(約9兆語)を処理し、次世代のモデルは最大で100兆トークンを処理できるようになると予想されています。これほど膨大なデータ量を単一のGPUで処理するとなると、数世紀かかるでしょう。
解決策は、もう一つの並列化レイヤーを追加することにあります。つまり、トレーニングタスクが統一されたシステムとして動作する多数のGPUに分散されるGPUクラスタを作成することです。モデルトレーニングのワークロードは、次の3つの方法で並列化することができます:
データの並列処理: 複数の GPU は、トレーニング データのさまざまな部分を処理しながら、ニューラル ネットワーク モデルの完全なコピーをそれぞれ保持します。各GPUは、他のすべてのGPUと定期的に同期する前に、割り当てられたデータバッチを個別に処理します。この同期期間中、GPU は相互に通信して重みの集合平均を見つけ、それらがすべて同一になるように個々の重みを更新します。その結果、再び同期する時期が来る前に、データのバッチで個別にトレーニングを続けます。
モデルが大きくなると、1つのコピーは1つのGPUに収まりきらなくなることがあります。たとえば、最新のB200 GPUでは7400億のパラメータしか保持できず、一方でGPT-4は1.8兆のパラメータモデルです。個々のGPU間でのデータ並列処理はこの場合うまく機能しません。
Tensor Parallelism: このアプローチは、メモリ制約に対処するために、各モデルレイヤーの作業と重みを複数のGPUに分散させることで対応します。GPUは、前向きおよび後方向伝播の各ステップで、中間計算をクラスタ全体と交換します。これらのGPUは通常、NVLinkを介して接続された8台のユニットで構成されたサーバにグループ化されます。このセットアップには、GPU間の高帯域幅(最大400 Gb/s)および低レイテンシ接続が必要です。テンソルクラスタは、事実上、単一の巨大なGPUとして機能します。
パイプライン並列処理:この方法は、各GPUが特定のレイヤーを処理するようにモデルを複数のGPUに分割します。データは、リレーレースのように、各ランナー(GPU)がバトンを渡す前に自分の担当箇所を管理するように、これらのGPUを順次通過します。パイプライン並列処理は、データセンター内の異なる8GPUサーバーを接続するために特に効果的であり、高速InfiniBandネットワークを使用してサーバー間通信を行います。通信要件はデータ並列処理を超えますが、テンソル並列処理のGPU間の密集した交換よりは低いです。
現代のクラスターの規模は驚異的です。GPT-4は1,800兆のパラメーターと120層を持ち、トレーニングには25,000台のA100 GPUが必要でした。このプロセスには3ヶ月かかり、費用は6000万ドル以上かかりました。A100は2世代前のものであり、現在のB200 GPUを使用すれば、約8,000台と20日間のトレーニングで済むでしょう。AIの進化の速さを再び示すものです。
しかし、GPT-4クラスのモデルは今や古いおもちゃです。次世代の高度なモデルのトレーニングは、少なくとも4倍の計算能力を提供する、10万台のB100またはH100 GPUを搭載したデータセンターで進行中です(後者は1世代前のものです)。これらのクラスタは、GPUの資本支出だけで40億ドル以上を表し、人類の最も強力なスーパーコンピュータであり、政府所有のものの少なくとも4倍の計算能力を提供しています。
生コンピュートの確保のほか、ASI志願者はこれらのクラスタを設定しようとするときに別の問題に直面します: 電気。 これらのGPUのそれぞれが700Wの電力を消費します。 これらを10万台組み合わせると、全体のクラスタ(サポートハードウェアを含む)は150MW以上の電力を消費します。 これを具体的に説明すると、この消費量は30万人の都市と同等であり、ニューオーリンズやチューリッヒと同等です。
狂気はここで止まりません。ほとんどのASI志願者は、LLMスケーリングの法則—モデルのパフォーマンスがモデルサイズ、データセットサイズ、およびトレーニングの計算量の増加とともに予測可能に向上することを示唆するもの—は引き続き真実であるとされています。 さらに強力なモデルのトレーニングランの計画はすでに進行中です。 2025年までに、各トレーニングクラスターのコストは100億ドルを超えると予測されています。 2027年までには1,000億ドルを超えます。 これらの数字がアポロ計画に対する米国政府の投資に近づくにつれて、ASIの達成が私たちの時代の定義的なレースとして浮かび上がる理由が明確になります。
GPT-5を起動するモデルのメトリクスは推定値です
電力消費量はクラスタサイズと比例して増加するため、来年のトレーニングランは1GW以上の電力を必要とするでしょう。その次の年には、10GW以上が必要になります。この拡大の兆候が見られないため、データセンターの消費量はおおよそ消費されると予想されています2030年までに世界で生成される4.5%. 既存の電力グリッド、現行モデルの需要にすでに苦戦しています今後のクラスターのために十分なエネルギーを生成できないため、重要な問題が発生しています。これは、この電力がどこから来るのかという重要な問題を提起します。ビッグテックは、2つのアプローチを取っています。gate
長い目で見れば、唯一の実行可能な解決策は、ASI志願者が自家発電することです。気候変動への取り組みを考えると、この電力は再生可能エネルギー源から供給されなければなりません。原子力エネルギーは主要な解決策として際立っています。アマゾン最近購入650億ドルで原子力発電所で動くデータセンターキャンパス。マイクロソフト雇用されました核技術の先頭に立ち、歴史的なスリーマイル島発電所の復活. Google has 複数の小型原子炉を取得しましたカリフォルニアのKairos Powerから。 OpenAIのSam Altmanはエネルギースタートアップを支援しています。Helion, Exowatt, および Oklo.
マイクロソフトはThree Mile Island原子力発電所を再開します画像ソース)
原子力の種がいま蒔かれている一方で、その成果(または電力)を実現するには数年かかります。ただし、即時のモデル生成のためのエネルギー要件はどうでしょうか?仮の解決策として、複数のデータセンターに分散トレーニングが導入されています。MicrosoftやGoogleなどの企業は、大量の電力需要を1つの場所に集中させるのではなく、トレーニングクラスターを複数の場所に分散させています。
もちろん、課題はこれらの分散システムを効果的に連携させることです。光の速度であっても、データは米国東海岸から西海岸まで往復するのに約43msかかります。これはコンピューティング用語では永遠の時間です。さらに、1つのチップが10%遅れるだけでも、トレーニング全体が同じ割合で遅くなってしまいます。
解決策は、高速光ファイバーネットワークを使用して複数のサイトにデータセンターを接続し、以前に議論された並列処理手法の組み合わせを適用して、それらの運用を同期させることにあります。テンソル並列処理は、各サーバ内のGPUに適用され、それらを単一のユニットとして機能させます。低いネットワーク要求を持つパイプライン並列処理は、同じデータセンター内のサーバをリンクするために使用されます。最後に、異なる場所にあるデータセンター(「島」とも呼ばれます)は、データ並列処理を使用して定期的に情報を同期させます。
以前、個々のGPUには大きなモデルを独立して処理する能力がないため、データ並列処理は効果がありませんと述べました。しかし、個々のユニットではなく、数千のGPUを含む各島を並列化する場合、このダイナミックが変化します。トレーニングデータは各島に分散され、これらの島は比較的遅い(NVLinkとInfinibandに比べて)光ファイバ接続を介して定期的に同期します。
トレーニングとGPUからデータセンター自体に焦点を移しましょう。
20年前、AmazonはAmazon Web Services(AWS)を立ち上げ、歴史上最も変革的なビジネスの1つを生み出し、クラウドコンピューティングとして知られる全く新しい産業を生み出しました。今日のクラウドリーダー(Amazon、Microsoft、Google、Oracle)は、結構な支配権を持ち、年間約3000億ドルの収益を上げており、30〜40%の利益を上げています。現在、AIの台頭により、長年にわたってほぼ寡占的であった市場に新たな機会が生まれました。
GPUを利用したAIデータセンターの物理的要件、技術的複雑さ、経済性は、従来のデータセンターとは大きく異なります。
以前にも述べたように、GPUはエネルギーを多く消費します。これにより、AIデータセンターはより高い電力密度を持ち、その結果、より多くの熱を発生します。従来のデータセンターでは、巨大なファン(空冷)を使用して熱を放散していますが、この手法はAI施設では十分ではなく、経済的にも実現可能ではありません。代わりに、AIデータセンターでは、水冷システムを採用しています。このシステムでは、水ブロックがGPUや他の熱源に直接取り付けられ、熱をより効率的かつ静かに放散します。(B200 GPUはこのアーキテクチャを内蔵しています)。水冷システムをサポートするためには、大型の冷却塔、集中的な水システム施設、およびすべてのGPUに水を送り返すための配管を追加する必要があります。これはデータセンターのインフラへの基本的な変更です。
AIデータセンターは、絶対エネルギー消費量が高いだけでなく、独自の負荷要件を持っています。従来のデータセンターは予測可能な電力消費を維持していますが、AIワークロードの電力使用パターンははるかに揮発性が高いです。この揮発性は、GPUが定期的に100%の容量で動作することと、トレーニングがチェックポイントに到達すると、重みがメモリに格納されるか、先ほど見たように他の島と同期されるまで、ほぼ停止することが交互に発生するためです。AIデータセンターには、これらの負荷変動を管理するための専門の電力インフラが必要です。
GPUクラスターの構築は、通常のコンピュータークラウドの構築よりもはるかに難しいです。GPUはお互いと非常に速く通信する必要があります。これを実現するためには、非常に密に詰め込まれなければなりません。典型的なAI施設には、InfiniBand接続と呼ばれる20万本以上の特殊ケーブルが必要です。これらのケーブルを使用して、GPU同士が通信します。1本のケーブルが作動しなくなると、システム全体がシャットダウンします。そのケーブルが修理されるまで、トレーニングプロセスを続行することはできません。
これらのインフラ要件により、従来のデータセンターに高性能GPUを後付けしてAI対応にすることはほぼ不可能です。このアップグレードにはほぼ完全な構造的な大幅改装が必要です。代わりに、企業はAIに特化した新しいデータセンターを、様々な規模で構築しています。
最前線では、大手テクノロジー企業が独自のAIデータセンターの構築を競っています。Metaは自社のAI開発のためだけに施設に多額の投資を行っており、クラウドサービスを提供していないため、直接的な設備投資として扱っています。Microsoftは、自社のAIプロジェクトを強化し、OpenAIなどの主要顧客にサービスを提供するために、同様に大規模なセンターを構築しています。オラクルもこの分野に積極的に参入し、OpenAIを注目すべき顧客として確保しています。Amazonは、特にAnthropicのような新興のAI企業を支援するために、インフラストラクチャを拡大し続けています。イーロンマスクのxAIは、他の会社に依存したくなかったため、独自の100,000GPUクラスターを構築することを選択しました。
xAIの10万H100 GPUデータセンター内でソース)
既存の企業と並んで、専門のクラウドプロバイダーである「ネオクラウド」が台頭しています。これらのネオクラウドは、AIワークロードのためにGPUコンピューティングに特化しています。これらのネオクラウドは、規模に基づいて2つの異なるカテゴリに分けられています。
大手のネオクラウドプロバイダーは、Gate.ioを含め、コアウィーブ, Crusoe、とLLama Labsでは、2,000 を超える GPU のクラスターを運用できます。従来のクラウドサービスとの差別化は、標準化されたパッケージではなくカスタマイズされたインフラストラクチャソリューションを提供することと、従量課金制ではなく長期的な顧客コミットメントを要求することの2つです。
彼らのビジネスモデルは、これらの長期契約と顧客の信用力を活用して、インフラの資金調達を確保しています。収益は、特殊サービスに課されるプレミアム料金と、低い資金調達コストと顧客の支払いとの差益から得られます。
これは通常どのように機能するかです:ネオクラウドプロバイダーは、10,000 H100 GPUを月額4000万ドルで3年契約し、144億ドルの保証収入を利用して、7億ドル相当のインフラを購入し、導入するために有利な銀行融資(6%の利子)を確保します。月額4000万ドルの収入は、1000万ドルの運営費と2000万ドルのローン返済をカバーし、スタートアップはカスタムビルドされた専用のコンピューティングパワーを受け取りながら、月額1000万ドルの利益を上げます。
このモデルでは非常に慎重な顧客選択が必要です。プロバイダーは通常、大規模な現金準備金または強力なベンチャー支援を受けている企業を求めています。 これはしばしば500億ドル以上の評価が付けられています。
Small neocloudsは、2,000台以下のGPUクラスターを提供し、AI市場の別のセグメント、すなわち中小規模のスタートアップに対応しています。これらの企業は、小規模なモデル(最大700億パラメータまで)をトレーニングしたり、オープンソースのモデルを微調整したりします。(微調整とは、基本モデルを特定のユースケースに適応させるプロセスです。)これらのワークロードの両方には、短期間での適度ながらも専用の計算リソースが必要です。
これらのプロバイダーは、固定期間の時間単位のコンピューティングを提供し、中断なくクラスタへのアクセスを提供します。長期契約よりもコストはかかりますが、数百万ドルの契約を結ばずにスタートアップが柔軟に実験できるようになります。
最後に、クラウドの主要企業や新世代クラウドプロバイダーとは別に、AIインフラストラクチャスペースの中間業者であるプラットフォームと集約業者があります。これらの仲介業者はGPUインフラを所有していませんが、代わりにコンピュートリソースの所有者と必要な人々を結び付けています。
プラットフォームプロバイダーは、HydraHostとFluidstackGPUコンピューティングのShopifyとして機能します。 Shopifyがeコマースインフラを構築せずにオンラインストアを立ち上げることを可能にするのと同様に、これらのプラットフォームは、データセンターの運営者やGPU所有者が独自の顧客インターフェースを開発せずにコンピューティングサービスを提供できるようにします。 GPUコンピュートビジネスを実行するための完全な技術パッケージを提供し、インフラ管理ツール、顧客提供システム、および課金ソリューションを含みます。
次のようなマーケットプレイスアグリゲーターVast.aiGPUの世界のAmazonとして機能します。彼らは、消費者向けのRTXカードからプロのH100 GPUまでさまざまなプロバイダーからの多様なコンピュートオファリングを組み合わせたマーケットプレイスを作成します。GPU所有者は、詳細なパフォーマンスメトリクスと信頼性評価を備えたリソースをリストし、顧客は自己サービスプラットフォームを介してコンピュート時間を購入します。
これまで、私たちの議論はトレーニング(またはファインチューニング)モデルに焦点を当ててきました。しかし、一度トレーニングされたモデルは、エンドユーザーにサービスを提供するために展開する必要があります。これを推論と呼ぶプロセスです。ChatGPTとチャットしているたびに、あなたは入力を受け取り、モデルの応答を生成する推論ワークロードを実行しているGPUを使用しています。ちょっと一時的に大理石の彫像について話しましょう。
これもダビデですが、オリジナルではなく、1857年にヴィクトリア女王の依頼でロンドンのヴィクトリア&アルバート博物館のために作られた石膏のレプリカです。ミケランジェロはフィレンツェでオリジナルを作るために大理石を丹念に彫り込むのに3年間を費やしましたが、この石膏のレプリカは、ミケランジェロが作り上げた曲線、角度、細部を完璧に再現するために、彫像から直接の型取りで作られました。集中的な創造的な作業は一度だけ行われました。その後は、これらの特徴を忠実に再現することが求められました。今日、ダビデのレプリカは、博物館のホールからラスベガスのカジノの中庭まで、あらゆる場所に現れています。
これがAIでの推論の動作方法です。大規模な言語モデルのトレーニングは、ミケランジェロのオリジナルの彫刻のプロセスと似ています。計算量が多く、時間がかかり、リソースが多く必要で、モデルは何百万もの微小な調整を通じて言語の「形状」を徐々に学習します。しかし、トレーニングされたモデルを使用する推論は、レプリカを作成するようなものです。ChatGPTとチャットするとき、あなたはゼロから言語を教えるのではなく、すでに完璧になっているモデルのコピーを使用しています(ダビデの正確な曲線と角度のようなパラメータを持っています)。
推論ワークロードはトレーニングと根本的に異なる。トレーニングには、H100のような最新のGPUを使用した大規模で密集したクラスターが必要で、高度な演算を処理するためです。一方、推論は、A100や消費者向けのカードのような古いハードウェアを使用した単一のGPUサーバーでも実行できるため、コスト効率が非常に高くなります。とは言っても、推論ワークロードには独自の要求があります:
これらの特性は、推論ワークロードをスポット価格モデルに適しています。スポット価格では、GPUリソースを大幅に割引価格で利用できます(通常、オンデマンド価格の30〜50%割引)。ただし、優先度の高い顧客がリソースを必要とする場合には、サービスが一時停止する可能性があります。このモデルは、推論に適しているため、中断があった場合に素早く利用可能なGPUにワークロードを移動できます。
このGPUとAIクラウドコンピューティングの背景の中で、私たちはついにこれらすべてに暗号通貨がどこに適合するかを探求する立場にいます。 さあ、(ついに)始めましょう。
プロジェクトやレポートでは、しばしばPeter Thielの観察結果を引用しています。「AIは中央集権化しており、暗号通貨は分散化している」といった内容は、暗号通貨がAIトレーニングにおける役割を議論する際に頻繁に引用されます。Thielの発言は間違いなく真実ですが、強力なAIをトレーニングする際にビッグテックの明らかな優位性の証拠がたくさん見られるため、しばしば誤解され、暗号通貨や分散型コンピューターがビッグテックの影響を相殺する主要な解決策を提供していると誤解されることがあります。
このような主張は、以前の仮想通貨がソーシャルメディアやゲーム、そして数多くの他の産業を革新する可能性についての誇大広告を反映しています。これらの主張は、生産的ではなく、そして私がまもなく主張するように、現実的には少なくとも短期間には実現不可能です。
代わりに、私はより実用的なアプローチを取るつもりです。分散化の原則やビッグテックへの理念的な反対に関心を持つAIスタートアップは、コンピュートを探していると仮定します。むしろ、彼らは問題を抱えています—彼らは可能な限り低コストで信頼性のあるGPUコンピュートにアクセスしたいと考えています。もし暗号プロジェクトが非暗号の代替手段よりもこの問題に対するより良い解決策を提供できるのであれば、彼らはそれを使用します。
そのため、まず、暗号プロジェクトが競合している相手を理解しましょう。前述のように、AIクラウドプロバイダーの異なるカテゴリーについて議論しました。Big Techとハイパースケーラー、ビッグネオクラウド、スモールネオクラウド、プラットフォームプロバイダー、そしてマーケットプレイス。
分散型コンピューティング(すべてのDePINプロジェクトと同様)の基本的なテーゼは、現在のコンピュート市場が非効率的に運営されているということです。GPUの需要は非常に高く、供給はグローバルなデータセンターや個人の家庭に分散し、十分に活用されていません。このセクターのほとんどのプロジェクトは、この散らばった供給を集約して非効率性を減らすことで、マーケットプレイスと直接競合しています。
それが確立されたら、これらのプロジェクト(および一般的なコンピューティングマーケットプレイス)が、さまざまなAIワークロード(トレーニング、微調整、推論)にどのように役立つかを見てみましょう。
まず最初に。いいえ、ASIは分散型GPUのグローバルネットワークでトレーニングされるわけではありません。少なくとも、現在のAIの軌道ではそうなりません。以下にその理由を説明します。
以前、私たちは基礎モデルのクラスターがどれほど大きくなっているかについて話しました。競争を始めるためには、世界で最もパワフルなGPUが100,000台必要です。この数値は年々増加しているだけです。2026年までに、トレーニングランの費用は1000億ドルを超えると予想され、おそらく100万台以上のGPUが必要になります。
唯一、主要なネオクラウドと直接的なNvidiaパートナーシップに支えられたビッグテック企業だけが、このような規模のクラスタを組み立てることができます。覚えておいてください、私たちはASIのために競争しており、すべての参加者は非常に意欲的で資本があります。これだけの多くのGPUが追加供給される場合(されていません)、それらを最初に手に入れるでしょう。
仮想通貨プロジェクトがどのような手段を講じても、分散型人工知能(ASI)の開発には2つの根本的な障害があります。
まず、GPUは効果的に機能するためには、まだ大規模なクラスタに接続する必要があります。これらのクラスタが都市の島々に分かれていても、専用の光ファイバーラインで接続する必要があります。これらのいずれも、分散型の設定では可能ではありません。GPUの調達に加えて、AI対応のデータセンターの設立には細心の計画が必要です。通常、1~2年のプロセスです。(xAIはわずか122日でそれを行いましたが、おそらくElonは近い将来トークンを発行する予定はありません。)
第二に、AIデータセンターを作るだけでは、超知能AIを生み出すのに十分ではありません。Anthropicの創設者であるダリオ・アモデイとして最近説明しました, AIのスケーリングは化学反応に似ています。化学反応が進行するためには、正確な割合で複数の試薬が必要ですが、成功したAIのスケーリングには、大きなネットワーク、長いトレーニング時間、そして大きなデータセットという3つの重要な要素が同時に成長する必要があります。他の成分を増やすことなく一つの成分を拡大すると、プロセスは停滞します。
どうやっても計算機を蓄積し、クラスタを連携させることができたとしても、訓練済みモデルを有効にするためには高品質なテラバイトのデータが必要です。ビッグテックの独自のデータソースやオンラインフォーラムやメディアとの数百万ドルの契約を結ぶための資本、または合成データを生成する既存のモデルがなければ、適切な訓練データを取得することは不可能です。
最近、スケーリングの法則が頭打ちになり、LLMがパフォーマンスの上限に達する可能性があるという憶測があります。これを分散型AI開発のきっかけと解釈する人もいます。しかし、これは重要な要素である人材の集中を見落としています。今日のビッグテック企業やAIラボには、世界有数の研究者が集まっています。汎用人工知能への画期的な代替パスは、これらのセンターから出現する可能性があります。競争の激しい環境を考えると、このような発見は厳重に警戒されるでしょう。
これらの議論をすべて考慮すると、ASIのトレーニング、または世界で最も強力なモデルのトレーニングは、分散コンピュートプロジェクト上でトレーニングされないということは99.99%確信しています。その場合、仮想通貨は実際にどのようなモデルのトレーニングに役立つことができるのでしょうか?
異なる地理的位置に配置された別々のGPUクラスター間でモデルをトレーニングするためには、それらの間にデータ並列処理を実装する必要があります(データ並列処理は、トレーニングデータの異なるチャンクで作業する各GPUの島々が互いに同期する方法です)。トレーニングされるモデルが大きくなるほど、これらの島々の間で交換する必要があるデータ量も増加します。先駆的なモデルの場合、1兆を超えるパラメーターを持つモデルでは、必要な帯域幅が大きすぎて、専用の光ファイバ接続が必要です。
ただし、より小さいモデルの場合、帯域幅の要件は比例して減少します。特に遅延同期において、低通信トレーニングアルゴリズムの最近の突破は、分散型の方法で小~中規模のモデルをトレーニングするための有望な機会を生み出しました。これらの実験的な取り組みを主導しているのは2つのチームです。
Nous Researchは、AIアクセラレータ企業であり、オープンソースのAI開発における主要なプレイヤーです。彼らは、言語モデルのHermesシリーズやWorld Simなどの革新的なプロジェクトで最もよく知られています。今年初め、彼らは数ヶ月間、LLMランキングのBitTensorサブネットを運営していました。彼らは分散コンピュートに踏み込み、DisTrO(分散トレーニングオーバーインターネット)プロジェクトでは、1.2BパラメータのLlama-2モデルを正常にトレーニングし、GPU間の帯域幅要件を857倍削減しました。
Nous ResearchによるDisTrOレポート
プライムインテレクトは、分散型AIのインフラを大規模に開発するスタートアップ企業で、グローバルなコンピューティングリソースを集約し、分散システムを通じて最先端のモデルの共同トレーニングを可能にすることを目指しています。彼らのOpenDiLoCoフレームワーク(DeepMindの分散低通信方法)は、2つの大陸と3つの国をまたいで、90-95%の計算利用率を維持しながら、10億パラメータのモデルを成功裏に訓練しました。
しかし、これらの分散トレーニングランはどのように機能しますか?
従来のデータ並列処理では、GPUはトレーニングステップごとに重みを共有して平均化する必要がありますが、インターネット接続では不可能です。代わりに、これらのプロジェクトでは、各GPUの「島」が同期する前に何百ものステップで独立してトレーニングを行うことができます。それは同じプロジェクトに取り組む独立した研究チームのようなものです。常にお互いに確認するのではなく、彼らは自分たちの発見を共有する前に独自の進歩を重ねています。
DisTrOとOpenDiLoCoは、デュアルオプティマイザーアプローチを使用して、500ステップごとに同期します。
同期が行われると、すべての重みを共有するのではなく、現在の重みと前回の同期時の重みの差を「疑似勾配」として共有します。これは非常に効率的であり、ドキュメント全体を毎回送信するのではなく、変更された部分のみを共有するのと同様です。
INTELLECT-1Prime IntellectによるOpenDiLoCoの実用的な実装であるは、これまでで最大の分散トレーニング取り組みとして、10Bパラメータモデルのトレーニングをさらに進めています。彼らは次のような重要な最適化を追加しました:
世界中に分散された20以上のGPUクラスターで訓練されたINTELLECT-1が最近完了しました事前トレーニングそして、まもなく完全なオープンソースモデルとしてリリースされます。
INTELLECT-1トレーニングダッシュボード
Teams like マクロコスモスは類似のアルゴリズムを使用していますモデルを訓練するBittensorエコシステム内。
もしこれらの分散トレーニングアルゴリズムが改善を続ければ、次世代のGPUで最大1000億パラメータのモデルをサポートすることができるかもしれません。このような大規模なモデルでも、さまざまなユースケースに非常に役立つことがあります:
ファインチューニングとは、事前にトレーニングされた基本モデル(通常はMeta、Mistral、またはAlibabaのオープンソースモデル)を特定のデータセットでさらにトレーニングし、特定のタスクやドメインに適応させるプロセスのことです。これには、モデルがすでに一般的な言語パターンを学習しているため、ゼロからトレーニングするよりもはるかに少ない計算量が必要で、新しいドメインに対して重みを調整するだけです。
モデルサイズに応じた微調整スケールの計算要件。H100でのトレーニングを想定しています。
これらの仕様を考慮すると、微調整には以前に説明した複雑な分散トレーニングアルゴリズムは必要ありません。開発者が短期間の集中的な期間にGPUクラスタを借りるオンデマンドモデルは、十分なサポートを提供します。頑強なGPU供給がある分散コンピュートマーケットプレイスは、これらのワークロードを処理するために理想的に配置されています。
推論は、分散コンピュートマーケットプレイスが製品市場適合性を最も明確に持つ場所です。皮肉なことに、これは分散トレーニングの文脈で最も議論されていないワークフローです。これは2つの要因によるものです。推論は、10万のGPU「ゴッドモデル」トレーニングランの魅力に欠けており、また、AI革命の現在の段階のために部分的にそうです。
今日を基準にすると、コンピュートの大部分は確かにトレーニングに向けられています。ASIへの競争は、トレーニングインフラストラクチャへの大規模な前払い投資につながっています。しかしながら、AIアプリケーションが研究から本番へ移行するにつれ、このバランスは必然的に変化します。AIに基づくビジネスモデルが持続可能であるためには、推論から得られる収益がトレーニングと推論の両方のコストを上回る必要があります。GPT-4のトレーニングは非常に高額でしたが、それは一度の費用でした。現在のコンピュートの費用とOpenAIの収益性への道筋は、数十億の推論リクエストの支払い顧客への提供によって駆動されています。
コンピューティング市場は、分散型であろうとなかろうと、世界中のさまざまな GPU モデル (新旧) を集約する性質上、推論ワークロードを提供する独自の立場にあります。
コンピューティングマーケットプレイスは、分散型か従来型かにかかわらず、多様なGPUモデル(現在とレガシーの両方)をグローバルに集約することで、推論ワークロードに自然に優れています。その固有の利点は、広範な地理的分布、一貫したアップタイム、システムの冗長性、GPU 世代間の互換性など、推論の要件と完全に一致しています。
異なるワークフローで分散コンピュートがどのように役立ち、役立たないかについて議論しました。さて、もう1つ重要な質問に答える必要があります。開発者がなぜ中央集権的なプロバイダーではなく分散型のプロバイダーからコンピュートを確保することを選択するのでしょうか?分散型ソリューションが提供する魅力的な利点は何でしょうか?
ステーブルコインは、従来の国際送金に優れた代替手段を提供することで、プロダクトマーケットの適合を実現しました。大きな要因の一つは、ステーブルコインが単純に安いということです!同様に、AI開発者がクラウドプロバイダを選択する際の最大の要因はコストです。分散型コンピュートプロバイダが効果的に競争するためには、まず優れた価格設定を提供する必要があります。
コンピュートマーケットプレイスは、すべてのマーケットプレイスと同様に、ネットワーク効果のビジネスです。プラットフォーム上のGPUの供給が増えれば増えるほど、顧客の流動性と利用可能性が高まり、それによってより多くの需要が集まります。需要が増えると、これはより多くのGPUオーナーがネットワークに参加することを促し、好循環を作り出します。供給の増加は、より競争力のある価格設定を可能にし、より適切なマッチングとアイドルタイムの削減を通じて、より競争力のある価格設定を実現します。顧客が魅力的な料金で必要なコンピュートを一貫して見つけることができると、プラットフォーム上での技術的な依存関係を築く可能性が高くなり、これはさらにネットワーク効果を強化します。
このダイナミックは特に推論において非常に強力であり、供給の地理的な分布が実際にエンドユーザーの遅延を減らすことで製品提供を向上させることができる。規模でこの流動性フライホイールを達成する最初のマーケットプレイスは、両方の供給業者と顧客がプラットフォームのツールやワークフローに統合した後に切り替えコストに直面するため、著しい競争上の優位性を持つことになります。
GPUマーケットプレイスネットワークエフェクトフライホイール
そのような勝者独占市場では、ネットワークのブートストラップそして、脱出速度に到達することが最も重要なフェーズです。ここでは、暗号通貨が分散型コンピュートプロジェクトに非常に強力なツールを提供しています。これは、中央集権型の競合他社が持っていないトークンのインセンティブです。
メカニズムは簡単かつ強力になり得ます。プロトコルはまず、インフレーションリワードスケジュールを含むトークンを発行し、おそらく初期配分を早期の貢献者にエアドロップを通じて行います。これらのトークンのエミッションは、マーケットプレイスの両側をブートストラップするための主要なツールとして機能します。
GPUプロバイダーにとって、報酬体系は慎重に設計する必要があり、供給側の行動を形成するために。プロバイダーは、自分の計算と利用率に比例したトークンを獲得するが、システムは単純な線形報酬を超えるべきです。プロトコルは、地理的またはハードウェアタイプの不均衡を解消するために、ダイナミックな報酬の乗数を実装することができます。これは、Uberが高需要地域のドライバーをインセンティブするためにサージ価格を使用しているのと似ています。
プロバイダーは、サービスが行き届いていない地域でコンピューティングを提供することで 1.5 倍の報酬を獲得し、一時的に不足している GPU の種類を提供することで 2 倍の報酬を得ることができます。一貫した利用率に基づいて報酬システムをさらに階層化することで、プロバイダーはプラットフォームを日和見的に切り替えるのではなく、安定した可用性を維持できるようになります。
需要側では、顧客は使用を効果的に助成するトークン報酬を受け取ります。このプロトコルは、コンピューティングのコミットメントが長くなると報酬が増加し、ユーザーがプラットフォームに対してより深い技術的依存関係を構築するインセンティブを与える可能性があります。これらの報酬は、特定の地域での需要の獲得など、プラットフォームの戦略的優先事項に合わせてさらに構造化することができます。
コンピュートの基本レートは、市場レートと同じか、わずかに下回る可能性があります。プロトコルは、zkTLSオラクル競合他社の価格を継続的に監視し、マッチングするためにトークン報酬を使用します。これにより、競争力のある基本料金に加えて、トークン報酬が追加のインセンティブ層として機能します。この二重価格モデルにより、プラットフォームは価格競争力を維持しながら、トークンのインセンティブを利用してネットワークを強化する特定の行動を促進することが可能です。
トークンのインセンティブを配布することで、プロバイダーと顧客の両方がネットワークにステークを蓄積し始めます。おそらくほとんどの人はこれらのステークを売却するかもしれませんが、他の人はそれらを保持し、事実上プラットフォームのステークホルダーおよび布教者となります。これらの関与した参加者はネットワークの成功に強い関心を持ち、直接の利用やコンピュートリソースの提供を超えた成長と採用に貢献します。
時間が経つにつれて、ネットワークが脱出速度に達し、強力なネットワーク効果を確立すると、これらのトークンインセンティブは徐々に縮小されることができます。最大のマーケットプレイスであることの自然な利点は、より良いマッチング、より高い利用率、より広範な地理的カバレッジとなり、成長の持続可能なドライバーになります。
トークンインセンティブがGPUマーケットプレイスのフライホイールを急速に推進する方法
価格と範囲は重要な違いをもたらしますが、分散型計算ネットワークは、集中型プロバイダーからの運用制限という成長する懸念に対処します。従来のクラウドプロバイダーは、既にサービスの一時停止や終了の意志を示しています。コンテンツポリシーと外部のプレッシャーこれらの前例は、同様の政策がAIモデルの開発と展開にどのように拡大するかについての合理的な疑問を投げかけています。
AIモデルがより洗練され、ますます多様なユースケースに取り組むにつれて、クラウドプロバイダーは既存のコンテンツモデレーション手法と同様に、モデルのトレーニングと提供に制限を設ける可能性があります。これは、NSFWコンテンツや物議を醸すトピックだけでなく、医療画像、科学研究、クリエイティブな芸術など、過度に慎重な自動フィルターを引き起こす可能性のある正当なユースケースにも影響するかもしれません。
分散化されたネットワークは、市場参加者が自分自身のインフラストラクチャの決定を下すことを可能にすることによって、革新のためにより自由で制限の少ない環境を作り出すことができるため、代替手段を提供しています。
許可されていないアーキテクチャの反対側は、プライバシーがより難しくなることです。コンピューティングが単一の信頼できるエンティティのデータセンター内に含まれるのではなく、プロバイダーのネットワーク全体に分散される場合、開発者はデータセキュリティについて注意深く考える必要があります。暗号化や信頼できる実行環境が役立つかもしれませんが、検閲耐性とプライバシーの間には、開発者が自分たちの特定の要件に基づいて航行する必要がある固有のトレードオフがあります。
AIコンピューティングの需要が急増しているため、GPUプロバイダーは成功した顧客から最大限の利益を得るために、その立場を利用することができます。昨年の投稿では、有名な個人開発者である Pieter Levels 氏が、AI アプリの収益数値を公開した後、プロバイダーが突然 600% 以上も価格を引き上げたことを、彼と他の開発者がどのように経験したかを共有しました。
分散システムはこの問題に対抗する手段を提供できます - 信頼できる契約の強制力。契約がオンチェーンでエンコードされると、利用規約に埋もれるのではなく、透明で変更不可能になります。プロバイダーはプロトコルを通じて明示的に同意されない限り、価格を任意に引き上げたり契約条件を途中で変更したりすることはできません。
価格設定を超えて、分散型ネットワークは活用できます信頼された実行環境(TEEs)検証可能なコンピューティングを提供します。これにより、開発者は、ハードウェアの仕様と専用アクセスの両面で、支払った GPU リソースを実際に手に入れることができます。たとえば、開発者がモデル トレーニング用に 8 つの H100 GPU への専用アクセスに料金を支払った場合、暗号化証明により、ワークロードがローエンド カードに暗黙的にダウングレードされたり、他のユーザーとリソースを共有したりするのではなく、GPU あたり 80 GB のメモリを搭載した H100 で実際に実行されていることを検証できます。
分散型コンピューターネットワークは、開発者に本当に許可なしの選択肢を提供できます。従来のプロバイダーとは異なり、これらのネットワークに誰でも参加し、コンピューティングリソースを利用または提供を開始できます。これにより、特に新興市場の開発者や実験的なプロジェクトに取り組む開発者の参入障壁が大幅に低下します。
この許可されていない性質の重要性は、AIエージェントの未来を考えるとさらに強力になります。 AIエージェントは、たった垂直統合エージェントSaaS業界の規模を超えることが期待されています。ゲートのようなものと一緒にトゥルース・ターミナルそしてゼレブロ現在、エージェントが自律性を獲得し、ソーシャルメディアや画像生成ツールなどの外部ツールの使用方法を学ぶ最初の兆候が見られています。
これらの自律システムがより高度になるにつれて、独自のコンピューティング リソースを動的にプロビジョニングする必要が生じる場合があります。人間の仲介者ではなく、コードによってトラストレスに契約を実行できる分散型ネットワークは、この未来の自然なインフラストラクチャです。エージェントは、人間の介入や承認を必要とせずに、契約の交渉、パフォーマンスの監視、需要に応じたコンピューティング使用量の調整を自律的に行うことができます。
分散型コンピュートネットワークの概念は新しいものではありません。現在のAIブームよりもずっと前から、プロジェクトは希少なコンピューティングリソースへのアクセスを民主化しようとしてきました。レンダーネットワーク2017年から運営されており、コンピュータグラフィックスのレンダリングに向けたGPUリソースを集約しています。アカシュlaunched in 2020 to create an open marketplace for general compute. Both projects found moderate success in their niches but are now focussing on AI workloads.
同様に、ゲートのような分散型ストレージネットワークは、Filecoinそしてアーウィーブare expanding into compute. They recognise that as AI becomes the primary consumer of both storage and compute, offering integrated solutions makes sense.
従来のデータセンターが特化したAI施設と競争に苦しんでいるように、これらの確立されたネットワークもAIネイティブソリューションに対して大変な戦いを強いられています。彼らはAIワークロードに必要な複雑なオーケストレーションを実行するためのDNAを持っていません。代わりに、彼らは他のAI特化ネットワークへのコンピューティングプロバイダーとしての地位を見つけています。例えば、RenderとAkashの両者は現在、io.netのマーケットプレイスでGPUを利用できるようにしています。
これらの新しいAIネイティブマーケットプレイスは誰ですか?io.netは、エンタープライズグレードのGPU供給を集約する初期のリーダーの1つであり、ネットワーク上に300,000を超える検証済みGPUがあります。彼らは、中央集権的な既存企業よりも90%のコスト削減を提供すると主張しており、25,000ドル(年間900万ドル)以上の毎日の収益に達しています。同じようにAethirAIおよびクラウドコンピューティングのユースケースに対応するために、40,000以上のGPU(H100を含む4,000以上)を集約しています。
以前、私たちはPrime Intellectが分散トレーニングのためのフレームワークを大規模に作成している方法について話しました。これらの取り組みに加えて、彼らはまた、ゲートを提供しています。GPUマーケットプレイスユーザーがオンデマンドでH100をレンタルできる場所。ゲートシンは、同様のトレーニングフレームワークとGPUマーケットプレイスのアプローチを採用した、分散型トレーニングに大きく賭ける別のプロジェクトです。
これらはすべてワークロードに依存しないマーケットプレイスです(トレーニングと推論の両方をサポートしています)。ただし、いくつかのプロジェクトは推論のみに焦点を当てており、私たちが最も興奮している分散コンピュートワークロードです。その中でも主要なものはExo Labsで、ユーザーがフロンティアレベルのLLMsを日常のデバイス上で実行できるようにしています。彼らはAI推論タスクをiPhone、Android、およびMacなどの複数のデバイスに分散させるためのオープンソースプラットフォームを開発しました。最近デモンストレーションされました4つのM4 Pro Mac Minisに分散された70-Bモデル(最大400-Bまでスケーラブル)を実行しています。
2008年にサトシがビットコインを立ち上げたとき、その利点であるデジタルゴールドと硬い供給、検閲に耐えるお金は純粋に理論的でした。伝統的な金融システムは欠陥があるにもかかわらず機能していました。中央銀行はまだ前例のないお金の印刷を始めていませんでした。国際制裁はまだ経済全体に対して武器として使われていませんでした。代替手段の必要性は、緊急ではなく学問的に思われました。
量的緩和に10年かかり、COVID時代の金融拡大に至るまで、ビットコインの理論的な利点が具体的な価値に結晶化するのに時間がかかりました。今日、インフレが貯蓄を侵食し、地政学的な緊張がドルの支配を脅かす中、ビットコインは「デジタルゴールド」としての役割を、サイファーパンクの夢から、機関投資家や国家によって採用される資産へと進化させました。
このパターンはステーブルコインでも繰り返されました。一般的な目的のブロックチェーンであるEthereumが利用可能になるとすぐに、ステーブルコインは最も有望なユースケースの1つとなりました。しかし、技術の進化やアルゼンチンやトルコのような国の経済がインフレに襲われるまでには数年の改善が必要でした。それによって、ステーブルコインはニッチな暗号通貨のイノベーションから、年間数兆ドルの取引量を動かす重要な金融インフラへと進化しました。
暗号通貨は本質的に防御的な技術であり、良い時には必要性がないように見えるが、危機の際には重要性が増す。これらの解決策の必要性は、既存のシステムが失敗するか、真の姿を現す場合にのみ明らかになります。
今日、私たちはAIの黄金時代を生きています。ベンチャーキャピタルが自由に流れ、企業は最低価格を提供し競争し、制限がある場合でもまれです。この環境では、分散化された代替手段は不要に見えるかもしれません。従来のプロバイダーがうまく機能するとき、なぜトークン経済や証明システムの複雑さを扱うのでしょうか?
しかし、過去の主要な技術の波に従って判断すると、この善意は一時的なものです。私たちはAI革命にわずか2年しか経っていません。技術が成熟し、AI競争の勝者が現れると、彼らの真の力が現れるでしょう。今日寛大なアクセスを提供している同じ企業が、最終的には価格設定、ポリシー、許可を通じて制御を行うようになります。
これはただの別の技術サイクルではありません。AIは文明の新しい基盤となりつつあります。情報を処理し、芸術を創造し、意思決定をし、最終的には種として進化するためのレンズとして機能します。コンピュートは単なるリソース以上のものです。それは知性そのものの通貨です。その流れを制御する者が人類の認知の最前線を形作るでしょう。
分散化された計算は、より安価なGPUやより柔軟な展開オプションを提供することには関係ありません(成功するためには両方を提供する必要があります)。それは人類最も変革的な技術である人工知能へのアクセスが検閲できず、主権を持つことを保証することです。それはAIを使用できる人だけでなく、それをどのように使うかを決めるのは少数の企業ではない、避けられない未来に対する私たちの盾です。
今日、これらのシステムを構築しているのは、ただちに必要というわけではなく、明日には必須となるからです。AIがお金と同じくらい社会にとって基本的なものになるとき、許可なしのコンピュートは単なる代替手段ではなく、デジタル覇権に対抗するためにビットコインやステーブルコインが金融統制に対抗するのと同じくらい重要になります。
分散システムの手の届かない人工的な超知能の競争かもしれません。しかし、この知能の成果がすべてにアクセス可能であることを確認することは、走る価値のある競争です。