具身知能(Embodied AI)が重要な転換点を迎えています。中国の智元ロボットは、最近「Genie Envisioner World Simulator 2.0(GE-Sim 2.0)」を発表し、World Model(世界モデル)を、環境を単に理解するためのツールから、ロボットのための世界シミュレータ(World Simulator)へと進化させようとしています。そのシミュレータは、直接に動作させ、訓練し、最適化できるものです。
もしこれがどれほど重要かまだ分からないなら、まず LLM(大規模言語モデル)のアーキテクチャ上の致命的な弱点を見てみてください。訓練の論理上、現存する LLM は膨大なテキスト・コーパスに基づいて文脈を予測するだけで、それは「リンゴが落ちる」という語句が一緒に出現しやすいことは分かっても、重力や物理世界の因果関係を本当に理解しているわけではありません。
だからこそ、楊立昆や李飛飛などの科学者が World Model の分野に身を投じています。AI が 3D 環境を理解し、物理を予測できるようになれば、この技術は自律ロボット、自動運転、スマート製造などの「実体AI」(Physical AI)のデジタルな“脳”になるでしょう。したがって、World Model の路線は、ロボットこそが非常に重要な担い手になると主張します。いま等身大(ヒューマノイド)ロボットのメーカーである智元ロボットが参入したことは、中国がハードウェアで逆襲する先鋒であることを象徴しています。
先に、TSMC の取締役会長である魏哲家氏は次のように述べています。中国本土はずっとロボットを作って飛び跳ねさせているが、あれは役に立たない。ただ見た目がいいだけだ、と。彼は、重要なのはロボットの“脳”が動くことだと指摘しました。“脳”を誰が作っているのかは、輝達 (Nvidia)、超微 (AMD)、そして数多くの米国企業ですが、95% の“脳”は TSMC が製造しています。GE-Sim 2.0 の開発ボトルネックは依然としてあり、中国のモデル開発の進展と強く結びついています。
World Model の路線主張:ロボットは鍵
現在主流の LLM は、膨大なコーパスと統計的関係に依存して文脈を理解し、次の語を予測しています。これは「リンゴが落ちる」というこれらの語がよく一緒に出てくることは分かっても、重力や物理世界の因果関係を本当に理解しているわけではありません。
このようなパターンは、テキスト生成、プログラム支援、あるいは質問応答のタスクでは優れた表現力を見せます。しかし、現実世界の構造を理解し、因果関係を推論し、長期計画を立てるようなシーンでは、根本的な制限が残っています。さらに大きな問題は、データ源が徐々に枯渇しつつあることです。LLM の訓練は高品質な人間データに強く依存しており、近年業界では、使える人間テキストデータが今後数年で使い尽くされる可能性があると警告し始めています。そうなれば近親繁殖のように遺伝的な欠陥が蓄積し、最終的にはモデルが次第に現実から逸れていき、性能が低下していくことになります。
(深掘り解説:LLM に欠陥はあるのか?なぜ楊立昆の AMI は World Model の路線に賭けるのか)
だからこそ近年、AI 学界の二人の重量級人物である楊立昆と、「AI の母」と呼ばれる李飛飛(Fei-Fei Li)も、World Model(世界モデル)と呼ばれる次世代の AI アーキテクチャに賭けることを選んでいます。
当時筆者はこう述べました。さらに見ていくと、AI が 3D 環境を理解し、物理を予測できるようになったとき、この技術は、自律ロボット、自動運転、スマート製造などの「実体AI」(Physical AI)のデジタルな“脳”になります。したがって、World Model の路線は、ロボットこそが非常に重要な担い手になると主張します。いま等身大ロボットのメーカーである智元ロボットが参入することは、中国がハードウェアで逆襲する先鋒を示しています。
先に TSMC の董事長(会長)である魏哲家氏は、ロボットと半導体の発展について語る際に次のように直言しています。中国本土がずっとロボットを作って飛び跳ねさせているようなものを見ればいい。あれは無意味で、見栄えがするだけだ、と。彼は、重要なのはロボットの“脳”を稼働させることだと指摘しました。“脳”を誰が作っているかは、輝達 (Nvidia)、超微 (AMD)、そして数多くの米国企業ですが、95% の“脳”は TSMC の製造です。
(TSMC 魏哲家が辛口コメント:中国のロボットが跳ね回っても、それは見せかけで無意味!鍵は輝達)にある
World Model 進化:世界を理解するところから、世界の中で学ぶへ
過去数年、World Model は一貫して、現実を理解するための AI にとって重要な技術だと見なされてきました。画像、言語、センサー情報を通じて、モデルは環境の変化を予測し、ロボットに基本的な意思決定能力を与えます。
しかし GE-Sim 2.0 の核心的なブレークスルーは、「世界を理解する」だけでなく、「モデル生成の世界」の中で学習し、行動する仕組みを直接に中核の変数に組み込むことにあります。従来の状態予測から、完全なループへとアップグレードします:
State
Action
State Evolution
これは、ロボットが単に観察して応答するだけではなく、シミュレーション環境の中で能動的に試行錯誤し、自主的に最適化し、継続して学習できることを意味します。この変化により、World Model は「認知モデル」から「訓練基盤(トレーニング基盤)」へ進化します。
GE-Sim 2.0:ロボットを仮想世界で「進化」させる
GE-Sim 2.0 は「身体を備えた世界シミュレータ」の一式として定義されており、現実の訓練が直面する三つの主要ボトルネックを解決することが中核目標です。すなわち、コストが高すぎる、データが不足している、そしてスケール(規模拡大)が難しい、という問題です。モデル生成による環境を通じて、システムは現実世界に依存せずに大規模にロボットを訓練できます。
技術面では、GE-Sim 2.0 は三つの重要な能力を統合しています。まずは「動作駆動の映像生成」で、モデルはロボットの動作に基づいて対応する将来の映像を生成でき、さらに頭部視点や左右の手の操作視点を含む、多視点の一貫性を維持します。
次に、自己感覚(proprioception)のモデリングです。外部の映像だけでなく、ロボット自身の関節や動作状態も予測できるため、意思決定がより真の物理世界に近づきます。
三つ目は「自動タスク評価」です。内蔵された reward model(報酬モデル)を通じて、システムは例えば「青い物体を赤い箱に入れる」といったタスクが完了したかどうかを自動判定し、フィードバックを与えて、強化学習に直接用いることができます。これにより、ロボットはシミュレーション環境で完全なクローズドループを実現できます:
GE-Sim 2.0 は「分単位」で安定した動画生成が可能です
初期のモデルが短い断片しか生成できなかったのに対し、GE-Sim 2.0 は「分単位」で安定した動画生成を実現し、長時間タスクのシミュレーションをサポートします。同時に、大規模な実データ(遠隔操作、デプロイ、インタラクションデータ)で学習することで、モデルは異なるシーンやタスク間でより強い汎化能力を持ちます。これは人型ロボットにとって特に重要です。現実世界での操作は非常に多様で、固定されたシーンだけで訓練することでは対応できないためです。
World Simulator の登場は、ロボットが仮想世界で「無限に練習」できることを意味し、これにより二つの構造的変化がもたらされます。第一に、訓練コストが大幅に下がります。第二に、能力の反復(アップデート)の速度が指数関数的に向上します。
智元ロボット:中国の人型ロボット新勢力
智元ロボットは 2023 年に設立され、華為の「天才少年」である彭志輝が創業し、AI とロボットの融合という身体性(具現知能)領域に注力しています。
同社の中核製品には以下が含まれます:
「遠征」シリーズの人型ロボット
「靈犀」ロボットシステム
汎用大規模モデル GO-1
現在までに複数ラウンドの資金調達を完了しており、紅杉中国、高瓴資本などの機関投資家から投資を受けています。中国の人型ロボット分野における重要なプレイヤーとして見られており、宇樹科技(Unitree)と競合する構図になっています。
この記事 智元 GE-Sim 2.0:World Model で世界を生成し、宇樹の強敵が人型ロボットを自己進化へ押し出す は 最初に 鏈新聞 ABMedia に登場しました。