彼らは説得力があり、自信を持って答え、大量のテキストを生成する。
しかし、問題はそこにある - 流暢さは理解と同じではない。
自信は現実の認識ではない。

根本的な問題を掘り下げると、かなり古い話になる。
プラトンの洞窟を覚えているか？
囚人たちは鎖に繋がれ、壁の影だけを見て、それを現実だと信じている。
他に知るものがないからだ。
まさに今私たちが作っている言語モデルも同じ状況だ。

これらのシステムは世界を見ていない。
世界を聞き取らず、触れず、感じ取らない。
彼らが知っているのはテキストだけだ。
本、記事、投稿、コメント、文字起こし。
テキストは彼らにとって唯一の世界への入口だ。
そして、テキストは現実そのものではなく、人間による現実の記述だ。
記述は不完全で偏っていて、しばしば歪められている。
インターネットや書籍には、天才的な洞察もあれば、明らかな嘘も、プロパガンダも、陰謀論もある。
言語モデルはこれらすべてを一緒に学習している。
彼らは人々が壁に投影する影だけを見る。

長年、スケールがすべてを解決すると考えられてきた。
より多くのデータ、より強力なモデル、より多くのパラメータ - そして問題は解決すると。
しかし、そうではない。
壁の影が増えるだけでは現実と同じではない。
言語モデルは次に来る単語の統計的確率を予測するのに優れているが、
因果関係や物理的制約、行動の実際の結果を理解していない。
だからこそ、幻覚は単なるバグではなく、修正可能なものではない。
構造的なアーキテクチャの欠陥だ。

だからこそ、注目はますます世界モデルに向かっている。
それは、プロセスの仕組みを内部表現として構築し、相互作用から学び、行動前に結果をシミュレートするシステムだ。
「次の単語は何か？」という問いの代わりに、「もしこれをしたら何が起こるか？」と問う。
世界モデルはテキストだけに縛られない。
時間系列、センサーデータ、フィードバック、表、シミュレーションも扱える。

実際にはこうなる。
物流において、言語モデルは故障のレポートを書けるが、
世界モデルは港の閉鎖や燃料価格の急騰が供給チェーン全体にどう広がるかをシミュレートできる。
保険やリスク管理では、テキストシステムはポリシーを説明するが、
世界モデルはリスクの進化を学び、極端な事象をシミュレートし、連鎖的な損失を評価する。
工場のデジタルツインはすでに初期の世界モデルの一例だ。
彼らは単に生産を記述するだけでなく、機械や材料、スケジュールの相互作用をシミュレートする。

これらすべてのケースで、言語は役立つが不十分だ。
システムが実際にどのように動作しているかのモデルが必要であり、
人々がそれについて話すだけの記述では不十分だ。

言語モデルから世界モデルへの移行は、最初の拒否ではない。
それは正しいポジショニングだ。
次の段階では、言語モデルはインターフェースやコパイロットになる。
世界モデルは、現実に根ざした予測や計画を担う。
言語は、現実そのものから学習するシステムの上に位置づけられる。

プラトンの寓話では、囚人たちは影を詳しく学ぶことで解放されるわけではない。
彼らは、それらの影の源を見て初めて解放されるのだ。
そして、洞窟を出て現実の世界を見る。
AIはその瞬間に近づいている。
これを早期に理解した企業は、説得力のある言葉を理解と誤認せず、
自らの現実をモデル化するアーキテクチャを構築し始めるだろう。
美しい言葉を話すだけのAIではなく、
実際に世界の仕組みを理解しているAIだ。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。