
本期《晚点聊》,我与刚从港科大博士毕业的一位年轻研究者高深远,他从去年开始在英伟达实习,接下来马上会正式加入英伟达的具身智能实验室 GEAR。
我们聊了深远 2024 年以来一直专注的方向:世界模型。
前 1 个多小时,我们展开了整个世界模型的大图景:它的分类?它是为了解决什么问题?它的现状、瓶颈和未来方向,以及各主要公司的思路。
很多人认为世界模型的说法太模糊、涵盖太多,这是一些早期技术的常见现象,这期正好厘清,目前有哪些做世界模型的方法和思路。
后一部分,我们聊了GearLab 在世界模型上的一些实践。尤其是去年底至今,他们陆续发布的世界模型 DreamDojo,(深远是这个工作的联合一作)以及被认为有可能会取代 VLA 的世界动作模型 DreamZero 的研发历程和具体创新点。也延展聊了世界模型可能的竞争局面。
深远描绘了他认为非常有前景的一种自进化循环——它由世界模型、策略模型(如 VLA、WAM 等)和连接二者的 Agent 构成。在英伟达,世界模型和策略模型有 DreamDojo-DreamZero 的组合,在 DeepMind 有 Genie-SIMA的组合。以下的图示更容易帮助理解播客里的讨论。
图注:图中大脑代表 agent,机器人代表 policy,地球代表世界模型,中间是数据集。世界模型的输出(对世界下一刻的预测)是 agent 的输入,供 agent 给预测打分,打分可用以优化 policy;同时世界模型的输出也是 policy 的输入,而 policy 的输出(动作)是世界模型的输入。同时,agent 也给 policy 做任务规划。
世界模型到 agent 和 policy 是用视频/图像通信;policy 到世界模型是用 action 通信;agent 到 policy 是用文本通信;agent 优化 policy 可以是一个打分数值,也可以是由文本媒介转过来的一种分数信号。
本期嘉宾:高深远,英伟达 GEAR 研究员
本期主播:程曼祺,《晚点 LatePost》科技报道负责人
剪辑:Nick、甜食
时间线跳转:
- 世界模型大图景
02:19 世界模型是什么? 施加动作,预测世界下一刻的状态
05:35 多 Agent(车/机器人)互联的世界模型
09:57 按世界状态的表征方式分类: 4 种世界模型
15:33 最看好 video 世界模型, 因为数据够丰富
19:36 世界模型为何热起来? 数据增多 + 策略模型变强了
- 世界模型、策略模型和 Agent 的自进化循环
21:42 策略是什么?和世界模型的关系
23:39 WAM(DreamZero)相比 VLM 的变化
28:26 世界模型的一大价值是服务策略: 测评、生成数据、突破物理限制的虚拟强化学习
33:42 循环三要素: 世界模型、策略、Agent,它们如何彼此连接、优化
- 世界模型的未来
43:07 当前最大瓶颈,突破泛化: 物理的泛化、动作的泛化
51:49 世界模型难以横评, 难以直观看到不同模型的差别
55:28 各团队的世界模型进展: DeepMind、Nvidia、OpenAI、General Intuition
- 从自动驾驶到具身,从 AI Lab 到 GEAR
01:02:44 “在学界继续做自动驾驶世界模型没意思了”
01:06:30 加入 GEAR,DreamDojo 和 DreamZero 的发起
01:14:12 在英伟达构建最大规模 Human Center 数据
01:21:05 跨本体的 Latent action,以后还需要吗?
01:28:41 DreamDojo 的评测: 自建 6 个 benchmark 的逻辑
01:34:50 自己不掌握视频基模,能做出有竞争力的世界模型吗?
- 01:45:44 连点成线
相关链接:
157 期:【具身季报 26Q1】宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手
150 期:【年末AI回顾】从模型到应用、从技术到商战,拽住洪流中的意义之线|Solo
148 期:它石智航陈亦伦:具身的三道曙光和第一道关卡
附录:一些名词解释
- 级联误差,Cascade Error:指在包含多个串联模块或阶段的系统中,前一阶段产生的误差未被纠正,直接传递给下一阶段,误差被放大。
- Genie(Generative Interactive Environments):DeepMind 团队发布的基础世界模型。它能通过一张图或一段文字描述生成一个动作可控的虚拟世界。目前发布到 Genie 3
- SIMA(Scalable Instructable Multiworld Agent):DeepMind团队开发的虚拟角色策略模型(DeepMind 称其为 Agent),能理解玩家用自然语言下达的指令(如“向左转”、“拿起斧头”),在 Genie 等各种虚拟环境中操控角色执行任务(产生动作)。
-** Intuition**:一家希望打造空间智能的美国创业公司。
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
Altri episodi di "晚点聊 LateTalk"



Non perdere nemmeno un episodio di “晚点聊 LateTalk”. Iscriviti all'app gratuita GetPodcast.








