📢 GM!Gate 广场|4/5 热议:#假期持币指南
🌿 踏青还是盯盘?#假期持币指南 带你过个“松弛感”长假!
春光正好,你是选择在山间深呼吸,还是在 K 线里找时机?在这个清明假期,晒出你的持币态度,做个精神饱满的交易员!
🎁 分享生活/交易感悟,抽 5 位锦鲤瓜分 $1,000 仓位体验券!
💬 茶余饭后聊聊:
1️⃣ 休假心态: 你是“关掉通知、彻底失联”派,还是“每 30 分钟必刷行情”派?
2️⃣ 懒人秘籍: 假期不想盯盘?分享你的“挂机”策略(定投/网格/理财)。
3️⃣ 四月展望: 假期过后,你最看好哪个币种“春暖花开”?
分享你的假期姿态 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
空间智能AI:李飞飞的下一个前沿
菲-菲·李认为:AI的下一前沿是空间智能
简要概述:菲-菲·李表示,具备空间智能的AI可能会塑造计算的下一个阶段。她在旧金山举行的HUMANX上发言时指出,仅靠语言并不足够。她强调,3D世界模型、World Labs及其Marvel系统是支撑机器人、游戏、医疗以及自动化出行的关键构建模块。
在旧金山的HUMANX上,菲-菲·李认为,人工智能的下一重要进步不会仅仅来自语言。相反,她聚焦于空间智能AI:让机器能够理解、推理并生成几何、运动、交互、物理以及随时间发生的变化所构成的3D和4D世界的能力。
这一论点处在World Labs的核心——这家公司是李创立的,旨在打造超越文本和图像的AI系统。在她看来,诸如ChatGPT这样的语言模型是一项重大的进展,但它们只捕捉了人类智能的一部分。日常生活、工作和决策同样也取决于在物理空间中运行。
“人类智能不仅仅是语言能力,”李说。她将空间理解描述为感知、推理和行动的关键,尤其是在机器必须在环境中导航、预测结果并与真实世界互动的领域。
空间智能AI在实践中意味着什么
李将空间智能定义为感知、理解并生成3D或4D空间的能力。这包括形状、几何、交互、物理约束以及随时间演化的动态。
从实际角度看,这体现在:一个AI系统只能描述房间;而另一个系统能够理解房间内的物体之间如何关联、运动如何改变场景,以及接下来很可能发生什么。在这种框架下,世界模型为机器提供一种可支持规划与行动的空间表征。
李将这一想法与由感知和具身所塑造的更广义智能观联系起来。她提到了生物进化的漫长历程,并将“5亿年前”发展出感觉系统视为一个隐喻,用以说明智能无法仅被简化为语言处理。
为什么World Labs是在学术界之外成立
李表示,这项工作的开端源自2022–2023年间的一次汇聚。一方面是由Transformer模型驱动的生成式AI进展。另一方面则是计算机视觉与3D表征的改进。她说,两者共同创造了以空间理解为中心的一类新模型所需的技术条件。
然而,这一机会也伴随着工业规模的要求。李说,启动World Labs的决定反映了需要在规模上整合算力、数据和人才——而这在纯粹的学术环境中很难做到。
“这需要巨大的资源——算力、数据和人才,”她说。尽管她强调学术界的重要性,包括像Stanford Human-Centered AI Institute这样的机构,但她仍清楚地区分了好奇驱动的研究与面向真实世界部署的公司构建。
她的表述很直接:作为研究者,她被好奇心驱动;作为CEO,她是一位建设者,专注于产生影响。
空间智能AI如何连接到Marvel与3D世界
来自World Labs最具体的例子是Marvel——一种生成式模型,李将其描述为能够创建真正的3D世界。她强调,Marvel并不仅仅是在生成视频。相反,它会生成可持续存在、可被用户或机器穿行的环境。
据李所说,这些世界最初是相对较小的环境。随后,它们可以被扩展为更大的空间,并与更复杂的场景组合在一起。这个区别之所以重要,是因为一个可被导航的世界模型在技术与商业价值上,与被动的视觉输出是不同的。
“Marvel是一个生成式模型,它创造真正的3D世界——不是视频,而是持久存在、可导航的环境,”她说。
其含义是广泛的。能够生成空间一致性的世界的模型,可能会成为交互式应用的基础层——从游戏开发与数字设计,到对仿真依赖更重的领域,例如机器人与自动化系统。
为什么数据是最大的瓶颈
李将技术挑战围绕三大支柱展开:模型、算力与数据。在这三者中,她认为数据是最难的问题。
“最难的部分是数据,”她说。
问题不只是数量。对于语言而言,大型公开数据集更容易汇集;而要获取能准确捕捉空间结构、运动、物理以及现实交互的大型公开数据集则难得多。构建3D世界模型需要的数据更难收集、更难标注,也更难实现标准化。
这一挑战在机器人领域尤为突出,因为可用的训练数据供应更为有限。对于必须在物理世界中预判接下来会发生什么的系统而言,预测质量在很大程度上取决于空间数据的丰富性与逼真度。
李用运营层面的语言概括了世界模型的核心价值:预测下一状态有助于规划与行动。
为什么合成数据对空间智能AI很重要
为了解决数据短缺,World Labs使用真实数据与合成数据的混合。李表示,这些来源如何被组合在一起,是该公司的技术核心组成部分。
“我们在真实数据和合成数据的混合上进行训练,而且如何把它们结合在一起是我们技术的关键部分,”她说。
这一点不只对World Labs重要。在现实世界数据稀缺、昂贵或难以在规模上捕捉的行业中,合成数据可以帮助填补空白、丰富边界案例并加速实验。李还指出,能够生成空间结构化环境的模型本身,也可能成为其他实验室的工具,尤其是在机器人领域。
因此,可能会形成一个潜在重要的反馈闭环。基于混合数据训练的世界模型,随后可以为相邻系统中的训练、测试与仿真生成更多合成环境。
早期应用可能出现在哪里
李列出了空间智能可能的广泛应用,包括游戏、艺术、设计、机器人、教育、医疗、制造以及自动驾驶。
一些最早的实际影响可能会出现在那些已经依赖仿真与现实世界预测的行业中。在自动化出行方面,诸如Tesla和Waymo这样的公司在其运营场景里处理的正是理解几何、运动与交互这类基础问题。在机器人领域,世界模型可以提升仿真质量、状态预测与行动规划。
医疗也是另一个值得关注的领域。李以放射学数据的空间解读为例,说明具备3D感知能力的AI如何支持临床工作流程。鉴于用于内容创作和交互体验的“持久、可导航环境”带来的直接价值,游戏与沉浸式媒体也可能很快跟进。
不过,讨论仍偏向方向性而非商业落地。李并未为Marvel提供部署时间表、公开可用性细节,也没有量化的性能基准。
产业界与学术界如何支持空间智能AI
李在表述中反复强调的一点是:AI的未来需要学术界与产业界共同贡献。学术界仍对基础性思考、长周期的探索以及科学研究至关重要。产业界则能够汇集算力、工程能力与运营重点,将新兴概念转化为可用系统。
这种分工在空间智能这样的领域中尤其明显:前沿研究与大规模基础设施必须同步推进。李的自身立场也体现了这种双重角色:她在与Stanford Human-Centered AI Institute保持紧密关联的同时,围绕商业与技术使命来建设World Labs。
更广泛的AI生态系统也强化了这一点。Transformer模型推动了以ChatGPT等系统为代表的语言革命。诸如Anthropic这样的公司也帮助加速了前沿模型的发展。李的论点是:下一阶段将需要类似的跨越式提升,让机器学会理解物理世界。
仍不清楚之处
尽管李的论断具有战略清晰度,但仍有若干重要细节未披露。关于筹集到的资源,没有财务数字;关于算力规模没有具体数值;关于Marvel内部架构的技术解释也仅有有限信息。
此外,关于商业化推广的时间表或公开访问的讨论也很少。并且,尽管产业界的承诺很明确,但对安全、治理以及伦理问题的关注相对较少——当AI系统生成可导航的合成世界,或支持高风险的物理应用时,这些问题可能随之出现。
即便如此,李的信息是毋庸置疑的:如果语言智能定义了AI的上一阶段,那么空间智能或许将定义下一阶段。对开发者、投资者、研究者以及产品团队而言,这意味着竞争前沿可能会越来越多地转向那些能够建模世界的系统,而不仅仅是描述世界。
简而言之
菲-菲·李认为:AI的下一前沿是空间智能,而不只是语言。她的核心观点是,为了支持现实世界中的规划与行动,机器需要理解3D空间、运动、物理以及随时间发生的变化。
World Labs正在通过世界模型与Marvel系统朝着这一目标推进。根据李的说法,最大的挑战是数据。早期机会可能首先出现在机器人、游戏、医疗、制造以及自动化出行等领域。