「これは莫大なリソースを要します――計算、データ、そして人材です」と彼女は述べた。アカデミアの重要性、スタンフォードのHuman-Centered AI Instituteのような機関を含めて強調しつつも、彼女は、好奇心主導の研究と、現実世界での展開を目指す企業づくりとの間に、明確な違いがあることを打ち出した。
この分業は、空間インテリジェンスのような分野で特に目に見える。最先端研究と大規模インフラは、同時に前進させる必要があるためだ。Li自身の立ち位置も、その二重の役割を映している。彼女はスタンフォードのHuman-Centered AI Instituteと密接に関わりながら、World Labsを商業的かつ技術的なミッションのもとで構築している。
空間知能AI:李飛飛の次なるフロンティア
Fei-Fei Liは、AIの次のフロンティアは空間インテリジェンスだと語る
ミニサマリー:Fei-Fei Liは、空間インテリジェンスのAIが計算の次の段階を形作り得ると述べる。サンフランシスコのHUMANXで語り、言語だけでは不十分だと主張した。ロボティクス、ゲーム、ヘルスケア、自律的モビリティのための重要な構成要素として、3Dワールドモデル、World Labs、そしてそのMarvelシステムを挙げた。
サンフランシスコのHUMANXで、Fei-Fei Liは、人工知能の次の大きな一歩は言語だけからは生まれないと論じた。その代わりに彼女が注目したのが、空間インテリジェンスAI、つまり幾何学、動き、相互作用、物理、そして時間を通じた変化からなる3Dおよび4Dの世界を、機械が理解し、推論し、生成する能力である。
その主張は、Liが設立したWorld Labsの中心にある。同社は、テキストや画像を超えるAIシステムを構築するためにあると彼女は言う。彼女の見解では、ChatGPTのような言語モデルは大きな進歩だが、人間の知能の一部しか捉えていない。日常生活、仕事、意思決定もまた、物理空間で作動することに依存している。
「人間の知能は、言語的なものだけではありません」とLiは述べた。彼女は、空間理解を知覚、推論、そして行動にとって不可欠なものだと説明した。特に、機械が環境を移動し、結果を予測し、現実世界と相互作用しなければならない分野で重要だとした。
実務において空間インテリジェンスAIが意味するもの
Liは、空間インテリジェンスを、3Dまたは4Dの空間を知覚し、理解し、生成する能力だと定義している。これには、形状、幾何学、相互作用、物理的な制約、そして時間を通じたダイナミクスが含まれる。
実用的には、これは「部屋を説明できるAIシステム」と「部屋の中で物体同士がどのように関係しているか、動きがシーンをどう変え、次に何が起こりそうかを理解できるAIシステム」との違いだ。この枠組みにおいて、ワールドモデルは、計画と行動を支えることのできる空間の表現を機械に与える。
Liはこの考えを、知覚と身体性によって形作られる、より広い見方の「知能」へと結びつけた。彼女は、生物学的進化の長い時間の流れに触れ、「5億年前に」感覚系が発達したことを、なぜ知能は言語処理だけに還元できないのかという比喩として挙げた。
なぜWorld Labsはアカデミアの外で設立されたのか
Liは、この取り組みを生むきっかけは2022〜2023年における収束だと述べた。一方には、Transformerモデルによって駆動される生成AIの進歩があった。もう一方には、コンピュータビジョンと3D表現の改善があった。彼女は、この2つの進歩が、空間理解を中心に据えた新しいクラスのモデルのための技術的条件を生み出したのだと言う。
しかし、その機会には産業規模の要件も伴っていた。Liは、World Labsを立ち上げる決定は、純粋に学術的な環境では組み立てるのが難しい規模での計算資源、データ、そして人材が必要であることを反映していると語った。
「これは莫大なリソースを要します――計算、データ、そして人材です」と彼女は述べた。アカデミアの重要性、スタンフォードのHuman-Centered AI Instituteのような機関を含めて強調しつつも、彼女は、好奇心主導の研究と、現実世界での展開を目指す企業づくりとの間に、明確な違いがあることを打ち出した。
彼女の組み立て方は率直だった。研究者としては好奇心に駆られる。CEOとしては、インパクトに焦点を当てた“作り手”だ。
空間インテリジェンスAIはMarvelと3Dワールドにつながる
World Labsから最も具体的な例がMarvelだ。これはLiが「真の3Dワールドを作り出せる」生成モデルだと説明した。彼女は、Marvelが単に動画を生成するのではないと強調した。代わりに、ユーザーや機械が移動していける、永続的でナビゲート可能な環境を生成する。
Liによれば、これらの世界は当初、比較的小さな環境として始まった。その後、より大きな空間へ拡張され、より複雑なシーンへと組み合わされ得る。ナビゲート可能なワールドモデルは、受動的な視覚出力とは異なる、技術的および商業的な価値を持つため、この違いは重要だ。
「Marvelは、真の3Dワールドを作り出す生成モデルです――動画ではなく、永続的でナビゲート可能な環境です」と彼女は述べた。
含意は広い。空間的に整合したワールドを生成するモデルは、ゲーム開発やデジタルデザインから、ロボティクスや自律システムのようにシミュレーションを重視する領域まで、インタラクティブなアプリケーションの基盤レイヤーになり得る。
なぜデータが最大のボトルネックなのか
Liは技術的課題を3つの柱――モデル、計算、データ――として整理した。3つのうち、彼女はデータが最も難しい問題だと特定した。
「一番大変なのはデータです」と彼女は言った。
問題は単に量ではない。言語向けの大規模な公開データセットは、空間構造、動き、物理、そして現実世界の相互作用を正確に捉えた大規模な公開データセットよりも、はるかに集めやすい。3Dワールドモデルを構築するには、収集が難しく、ラベル付けが難しく、標準化も難しいデータが必要になる。
この課題は、とりわけロボティクスで深刻だ。有用な学習データの供給が、さらに限られるためである。物理世界で「次に何が起きるか」を予期しなければならないシステムでは、予測の質が、空間データの豊かさと現実性に大きく依存する。
Liは、ワールドモデルの中核的価値を運用面でこう要約した。次の状態を予測できることが、計画と行動を支える。
空間インテリジェンスAIにおいて合成データが重要な理由
データ不足に対処するため、World Labsは実データと合成データを組み合わせて用いる。Liは、それらの情報源をどう組み合わせるかが、同社の技術の中核だと述べた。
「私たちは実データと合成データの混合で学習し、そしてそれらの組み合わせ方が、私たちの技術の重要な部分です」と彼女は言った。
この点はWorld Labsの外でも重要だ。現実世界のデータが乏しい、費用が高い、あるいは規模をもって収集するのが難しい領域では、合成データがギャップを埋め、エッジケースを多様化し、実験のスピードを上げるのに役立ち得る。Liはまた、空間的に構造化された環境を生成できるモデル自体が、他のラボ、特にロボティクスにおいてツールになり得るとも指摘した。
その結果、潜在的に重要なフィードバックループが生まれる可能性がある。混合データで学習したワールドモデルは、隣接するシステムでの学習、テスト、シミュレーションのために、追加の合成環境を生成できるかもしれない。
初期のアプリケーションはどこで生まれ得るか
Liは、空間インテリジェンスのための幅広い可能な応用を挙げた。ゲーム、アート、デザイン、ロボティクス、教育、ヘルスケア、製造、自律運転だ。
最初の実務上のインパクトは、すでにシミュレーションと物理世界の予測に依存している産業で生まれる可能性がある。自律的モビリティでは、TeslaやWaymoのような企業が、幾何学、運動、相互作用の理解が根本となる環境で運用している。ロボティクスでは、ワールドモデルがシミュレーションの質、状態予測、行動計画を改善できる。
ヘルスケアもまた注目すべき領域だ。Liは、その例として、放射線学的データの空間的解釈を挙げ、3Dに配慮したAIが臨床ワークフローをどのように支え得るかを示した。ゲームや没入型メディアも、コンテンツ制作やインタラクティブな体験のために、永続的でナビゲート可能な環境がすぐに価値を持つことから、素早く進展する可能性がある。
とはいえ、議論は商業的なものというより方向性を示すものであり続けた。LiはMarvelの展開に関するタイムライン、公開の提供情報、定量化されたパフォーマンス指標のベンチマークを提示しなかった。
産業界とアカデミアは空間インテリジェンスAIをどう支えるか
Liの発言の中で繰り返し出てきたテーマは、AIの未来にはアカデミアと産業の両方の貢献が必要になるということだった。アカデミアは、基礎的な思考、長期的な探究、そして科学的な探索のために依然として不可欠だ。一方で産業界は、立ち上がりつつある概念を実際に使えるシステムへと転換するために必要な計算資源、エンジニアリング能力、そして運用上の重点を集められる。
この分業は、空間インテリジェンスのような分野で特に目に見える。最先端研究と大規模インフラは、同時に前進させる必要があるためだ。Li自身の立ち位置も、その二重の役割を映している。彼女はスタンフォードのHuman-Centered AI Instituteと密接に関わりながら、World Labsを商業的かつ技術的なミッションのもとで構築している。
より広いAIエコシステムも、この点を後押しする。Transformerモデルは、ChatGPTのようなシステムの背後にある言語革命を可能にした。Anthropicのような企業は、フロンティアモデル開発を押し進めるのに貢献してきた。Liの主張は、次の段階でも、物理世界を理解する機械に対して同様の“段階的な飛躍”が必要になるというものだ。
不明な点は何か
Liの主張の戦略的な明確さはあるものの、いくつかの重要な詳細は明かされていない。調達したリソースに関する財務数値はなく、計算規模に関する具体的な数値もなく、そしてMarvelの内部アーキテクチャについての技術的説明も限定的だった。
また、商用展開のタイムラインや一般アクセスについての議論もほとんどなかった。さらに、産業的な期待は明確だった一方で、AIシステムがナビゲート可能な合成ワールドを生成したり、高リスクな物理アプリケーションを支えたりする際に生じ得る安全性、ガバナンス、倫理の問題には、会話の中でより少ない注意しか向けられなかった。
それでも、Liのメッセージは明確だった。もし言語インテリジェンスがAIの最後のフェーズを定義したのなら、空間インテリジェンスが次のフェーズを定義するかもしれない。開発者、投資家、研究者、そしてプロダクトチームにとって、それは競争のフロンティアが、世界を“説明する”だけでなく“モデル化できる”システムへと、ますます移っていく可能性があることを意味する。
まとめ
Fei-Fei Liは、AIの次のフロンティアは言語だけではなく空間インテリジェンスだと主張している。彼女の論旨は、機械が現実世界での計画と行動を支えるために、3D空間、運動、物理、そして時間を通じた変化を理解する必要があるというものだ。
World Labsは、ワールドモデルとMarvelシステムによって、その目標に向けて構築を進めている。Liによれば、最大の課題はデータだ。初期の機会は、ロボティクス、ゲーム、ヘルスケア、製造、自律的モビリティで生まれてくる可能性がある。