✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
我注意到,在我们如何评估现代语言模型这一点上,似乎存在一个有趣的悖论。它们听起来很有说服力,回答得很自信,能够在海量规模上生成文本。但问题在于——口才的流畅并不等同于理解。自信也不是对现实的感知。
如果追根溯源,问题就会呈现出一个相当古老的故事。还记得платоновская пещера(柏拉图的洞穴)吗?被锁在枷链里的囚徒只能看到墙上的影子,并把影子当成现实,因为他们别无所知。我们现在所创建的语言模型,正是同样的处境。
这些系统看不到世界。它们也听不到、摸不到、感受不到世界。它们所知道的一切只有文本。书籍、文章、帖子、评论、转录记录。文本是它们进入世界的唯一入口。而文本并不是现实本身,而是人类对现实的描述。这样的描述并不完整、带有偏见,而且往往被扭曲。在互联网上和书籍里,既有天才般的洞见,也有赤裸的谎言、宣传,以及阴谋论。语言模型是在把这些内容混在一起的基础上进行训练的。它们只看到人们投射到墙上的影子。
多年以前,人们就以为规模会解决一切。更多数据、更强的模型、更多参数——问题就会消失。但并不会。墙上的影子更多,并不等于现实本身。语言模型擅长预测统计意义上“下一个词”最可能是什么,但它们并不理解因果关系、物理限制、以及行为带来的真实后果。正因为如此,幻觉并不只是一个可以修复的漏洞。这是架构层面的结构性缺陷。
也正因为如此,注意力才越来越多地转向世界模型。这些系统会构建内部表征,用来刻画流程如何运作;它们通过交互进行学习,并在真正行动之前对结果进行模拟。它们不再问“下一个词是什么?”,而是问“如果我们做了这件事,会发生什么?”。世界模型并不只与文本绑定。它们可以处理时间序列、传感数据、反馈、表格以及模拟。
在实践中,大致是这样的:在物流领域,语言模型可以撰写关于故障的报告,而世界模型则能够模拟港口关闭或燃料价格上涨如何沿着整个供应链逐步扩散。在保险与风险管理中,基于文本的系统会解释相关政策,但世界模型会研究风险如何演化,模拟极端事件,并评估级联式的损失。工厂的数字孪生已经是世界模型的早期版本。它们不只是描述生产过程——它们会模拟机器、材料与时序之间的交互。
在所有这些场景中,语言都很有用,但它远远不够。我们需要的是一种关于系统在现实中如何运作的模型,而不仅仅是对人们如何谈论它的描述。
从语言模型过渡到世界模型,并不是放弃前者。这是正确的定位。在下一阶段,语言模型将成为接口与副驾驶(copilot)。世界模型将提供落地、预测与规划。语言将建立在那些从现实本身学习的系统之上。
在柏拉图的寓言中,囚徒并不会通过把影子看得更仔细就获得解放。他们只有在转身并看见这些影子的来源之后,才会获得解放,然后走出洞穴,进入真实的世界。ИИ(人工智能)正在接近类似的关键时刻。那些能更早理解这一点的公司,将不再把那种听起来很有说服力的语言当作理解,而是开始构建能够模拟自身现实的架构——不是那种只会漂亮地谈论世界的ИИ,而是真正理解世界如何运作的ИИ。