![]()
出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
在生命进化的漫长长河里,“看见”世界比“谈论”世界早了整整5亿年。如今,AI正在补上这一课。
这句充满进化论智慧的判断,正是李飞飞对当下AI浪潮的最新注解。在充斥着浮躁与噪音的硅谷,她的声音始终代表着一种冷静的远见。
北京时间2月4日凌晨,这位公认的“AI教母”带着初创公司World Labs现身思科年度AI峰会(Cisco AI Summit)。作为曾经引爆计算机视觉革命的科学家,她没有随波逐流于大模型的语言游戏,而是将目光投向了AI进化的下一块拼图:空间智能(Spatial Intelligence)。
她认为,AI的下一个巅峰,不只是会写代码和聊天,而是像生物一样,真实理解并交互我们所处的这个三维空间。
而超越技术维度之外,她更为AI的未来立下了一把人文标尺:“AI的成功,应当体现为文明的进步,让每个个体都能由此追求幸福、繁荣和尊严。”
![]()
以下是本次精彩访谈的解析,为你拆解“空间智能”将如何重塑我们的未来。
1. 进化论的启示:感知先于语言
很多人认为AI的终极形式是语言模型,但李飞飞提出了一个有趣的视角:从进化论来看,语言其实是“后来者”。
她举例说,在5亿多年前的寒武纪,生命体最先发育出的并不是语言,而是感知系统。动物通过触觉和视觉观察环境,才开启了那场让生命变得更聪明的“进化军备竞赛”。
李飞飞认为,“理解、推理并与3D物理世界互动的能力,与语言智能一样,都是最基础的底层能力。它是AI的下一个前沿。”
这也是World Labs的核心逻辑:如果AI不能像人一样理解空间,它就永远无法真正进入现实物理世界。
2. 什么是Marble?它不只是视频,而是一个“世界”
访谈中,李飞飞详细介绍了World Labs的第一代模型:Marble。
很多人将其与Sora等视频生成模型混淆,但李飞飞指出,二者有着本质区别。Marble是一种真正意义上的“世界模型”:
· 全场景交互:它能根据文本或图片提示,生成一个完整的、可导航的、可交互的3D世界。
· 物理一致性:它具有几何结构,不是一段“看起来像”的视频,而是一个在物理逻辑上始终保持一致的空间。
这意味着,它不仅能用来做游戏,更能直接成为机器人训练的“虚拟实验室”。
3. 意想不到的用例:从机器人到心理治疗
空间智能的应用边界在哪里?李飞飞给出的答案超出了很多人的想象:
· 游戏与影视:开发者可以用它快速构建可穿行的虚拟世界,特效团队能进行虚拟制片。
· 机器人训练:与英伟达等伙伴合作,为机器人提供高精度的仿真环境。
· 建筑设计:设计师能瞬间将平面图转化为可步入的3D样板间。
最令人称奇的是医疗科研。心理学家正利用Marble为强迫症(OCD)患者定制个性化的沉浸式环境,通过模拟特定触发场景来进行科学干预。
4. 数据与算力:我们离通用机器人还有多远?
当被问及Marble是否像GPT-5那样烧钱时,李飞飞显得很坦诚。
目前,Marble的训练规模比顶级大语言模型要小几个数量级。这一方面是因为这个领域尚处于“规模定律(Scaling Law)”的早期,另一方面也面临着数据获取的挑战。
李飞飞坦言,不同于互联网上随处可见的文本,高质量的3D物理数据非常稀缺。她透露,World Labs当下采用一种混合数据策略,综合利用互联网级的图文视频、仿真数据以及类似自动驾驶公司的“实景捕获”数据。
关于通用机器人,李飞飞也泼了一盆冷水:“汽车只是在二维平面上移动、尽量不去碰东西的‘方盒子’。但通用机器人要在三维空间里完成灵活、精准的抓取和互动。这是一个极高维度的难题,我们不能乱开空头支票。”
5. 拒绝“技术末日论”:AI的成功应关乎尊严
作为AI领域的领军人物,李飞飞对当下的两极分化言论感到担忧。
“技术乌托邦”和“末日生存危机”在她看来都不够负责任。她强调,技术是双刃剑,人类必须发挥主观能动性去引导它。
那么,AI最终的成功标志是什么?
李飞飞借用了“电力”的类比:电力的成功不在于电线本身,而在于它点亮了学校、温暖了家庭、延长了人类寿命。“AI的成功,也应当体现在文明的进步,让每个人都能追求幸福、繁荣和尊严。”
6. 结语
从理解像素到构建世界,李飞飞正带领团队在空间智能的无人区探索。这不仅是技术的跨越,更是人类试图赋予数字生命“感知力”的又一次尝试。
空间智能,或许就是我们通往AGI的那把“物理钥匙”。