具身大模型 / 世界模型 / 具身数据路线的学术谱系与技术变迁
生成日期:2026-05-25
主题:从具身大模型、世界模型、具身数据采集与训练的角度,梳理海内外高校、学术流派、科研领军人物之间的师承、流转、变迁关系,并理解技术路线如何随人的传承和迁移而演变。
目录
- 总览:五条技术传统的汇流
- Berkeley / Stanford / Google Robotics / Physical Intelligence:机器人学习正统
- Google / DeepMind:从 SayCan、PaLM-E、RT 到 Gemini Robotics
- CMU / FAIR / Skild AI:从视觉探索到 omni-bodied robot brain
- 世界模型流派:DeepMind、Meta、OpenAI、Schmidhuber / Ha
- 具身数据采集路线:算法护城河转向数据 flywheel
- 仿真 / 合成数据路线:NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T
- MIT / Stanford 空间智能与认知路线
- Fei-Fei Li / Stanford / World Labs:从视觉理解到 spatial intelligence
- 中国路线:数据、硬件、仿真、开源体系并进
- 人—机构—技术路线图
- 技术路线如何随人的流动而演变
- 深层技术分歧
- 对一级市场判断的价值
- 一句话总结
- 参考来源
1. 总览:五条技术传统的汇流
当前具身智能的主流范式,本质上是五个学术传统的汇合:
| 谱系 | 早期问题意识 | 今天演化成什么 |
|---|---|---|
| 机器人学习 / 模仿学习 / 深度强化学习 | 机器人如何从示范、试错、轨迹优化中学技能 | RT-1 / RT-2、Octo、OpenVLA、π0、Gemini Robotics、Skild Brain |
| 世界模型 / model-based RL | 智能体是否能先学习环境动力学,再在“想象”中规划 | Dreamer、MuZero、Genie、V-JEPA2、Sora 类世界模拟器 |
| 视觉-语言-空间理解 | 机器如何理解物体、场景、3D 空间、物理常识 | PaLM-E、VLA、spatial intelligence、具身推理模型 |
| 数据采集 / 跨机器人数据混合 | 机器人数据太贵、太碎、不可复用,如何规模化 | RoboNet、BridgeData、Open X-Embodiment、DROID、ALOHA、UMI、RoboMIND |
| 仿真 / 数字孪生 / 合成数据 | 真实机器人训练成本太高,能否用仿真补齐长尾 | MimicGen、RoboCasa、ManiSkill、RoboVerse、NVIDIA GR00T |
最重要的变化是:2018 年前,核心问题是“怎么让机器人学会一个任务”;2023 年后,核心问题变成“怎么训练一个可跨机器人、跨任务、跨场景泛化的具身基础模型”。
RT-1 / RT-2、Open X-Embodiment、Octo、OpenVLA、π0 / π0.5、GR00T 和 Gemini Robotics 都沿着这个方向推进。
2. Berkeley / Stanford / Google Robotics / Physical Intelligence:机器人学习正统
这条线是今天具身大模型最核心的人才与思想来源之一。
2.1 Andrew Ng → Pieter Abbeel → Berkeley Robot Learning / BAIR
Pieter Abbeel 的博士导师是 Andrew Ng,他在 Stanford 做的主题是 apprenticeship learning / reinforcement learning for robotic control,也就是通过示范和强化学习让机器人掌握控制策略。后来 Abbeel 到 UC Berkeley,成为 Berkeley Robot Learning Lab 和 BAIR 的关键人物之一,研究方向覆盖深度强化学习、模仿学习、迁移、元学习和机器人控制。
这条线的早期技术精神是:
机器人不应只靠手工控制器,而应从数据、示范、试错中学习控制策略。
这直接孕育了后来两类路线:
- 工业化机器人基础模型路线:Covariant,后来与 Amazon Robotics 发生人才和技术迁移;
- 学术开源路线:RoboNet、BridgeData、DROID、Octo、OpenVLA 等数据与模型体系。
Amazon 在 2024 年吸纳 Covariant 创始团队成员,并获得其机器人基础模型的非独占许可,这可以看作 Berkeley 机器人学习路线向大型工业机器人部署体系的一次重要迁移。
2.2 Vladlen Koltun → Sergey Levine → Berkeley / Google / Physical Intelligence
Sergey Levine 的博士导师是 Vladlen Koltun。Levine 早期做 guided policy search、轨迹优化、深度强化学习和端到端视觉-运动控制,之后在 Berkeley 和 Google Robotics 形成了非常强的“机器人学习 + 大规模数据 + 神经策略”路线。
这条线最关键的思想转变是:
从“优化单个任务的控制策略”转向“用大量多任务、多物体、多场景数据预训练通用机器人策略”。
RT-1 就是这个转折点之一。它把 Transformer 用于机器人动作序列建模,并强调从大规模、多任务机器人轨迹中吸收能力。RT-2 更进一步,把视觉语言模型和机器人动作统一到一个 VLA 框架里:模型既读图文,也输出机器人动作。
2.3 Chelsea Finn:Berkeley → Google → Stanford → Physical Intelligence
Chelsea Finn 的博士导师是 Pieter Abbeel 和 Sergey Levine。她后来在 Google、Stanford、Physical Intelligence 之间形成了一个极关键的桥梁角色。她的研究主题覆盖元学习、模仿学习、机器人泛化、视觉运动控制和大规模机器人数据。
她这条线的核心价值在于:把 Berkeley 的机器人学习思想、Google 的大规模模型与数据工程、Stanford 的基础研究体系和 Physical Intelligence 的机器人 foundation model 公司化路线串了起来。
Physical Intelligence 的创始团队包括 Chelsea Finn、Karol Hausman、Sergey Levine、Brian Ichter、Lachy Groom 等人,其中多位来自 Google Robotics / DeepMind / Stanford / Berkeley 网络。PI 的 π0、π0.5 和 FAST 体现了这条线的新形态:用预训练视觉语言模型、流匹配 / 扩散式动作生成、异构机器人数据和动作 tokenization 来训练通用机器人策略。
3. Google / DeepMind:从 SayCan、PaLM-E、RT 到 Gemini Robotics
Google Robotics / DeepMind 这条线的贡献,是把大语言模型、视觉语言模型和机器人控制真正合并起来。
3.1 技术递进
| 阶段 | 代表工作 | 核心思想 |
|---|---|---|
| SayCan | PaLM-SayCan | LLM 负责高层任务分解,机器人技能模型判断动作可执行性 |
| PaLM-E | Embodied multimodal language model | 把视觉、语言、机器人状态放进同一个大模型 |
| RT-1 | Robotics Transformer | Transformer 直接建模机器人轨迹和动作 |
| RT-2 | Vision-Language-Action model | 把网页图文知识迁移到机器人动作 |
| Open X-Embodiment / RT-X | 跨机器人数据混合 | 多机构、多机器人、多任务数据共同训练 |
| Gemini Robotics | Embodied reasoning + VLA | 高层空间推理、任务规划、工具调用与低层动作结合 |
SayCan 的关键不是“LLM 直接控制机器人”,而是让 LLM 提出候选高层动作,再由 affordance / skill model 判断哪些动作在当前环境中可执行。
PaLM-E 则进一步把语言、视觉和具身状态统一输入大模型。RT-2 把动作表示成类似语言 token 的形式,使互联网规模的视觉语言知识能迁移到机器人动作决策中。
Open X-Embodiment 是一个标志性拐点:它包含来自 21 个机构、22 种机器人、160,266 个任务的开放数据集,并训练 RT-1-X / RT-2-X 这样的跨 embodiment 模型。这个项目说明,机器人策略的泛化开始依赖“跨本体数据混合”,而不是单一实验室、单一机械臂、单一任务集。
Gemini Robotics 则把这条线推进到“具身推理模型”阶段。Gemini Robotics-ER 1.6 被定位为 embodied reasoning 模型,负责视觉-空间理解、任务规划、成功判断和工具调用;Gemini Robotics 1.5 则更接近把视觉信息和指令转成动作的 VLA 模型。
4. CMU / FAIR / Skild AI:从视觉探索到 omni-bodied robot brain
CMU 这条线和 Berkeley / Google 有明显区别。Berkeley / Google 更强调真实机器人数据、模仿学习、VLA;CMU / FAIR / Skild 更强调:
一个模型能否跨越不同身体形态、不同机器人平台、不同任务,成为“任何机器人都能用的大脑”。
Deepak Pathak 是 CMU Robotics Institute 的教授,研究横跨计算机视觉、机器学习和机器人。他与 Abhinav Gupta 创办 Skild AI,主张训练一个能泛化到多种硬件和任务的机器人基础模型。Skild 官方材料强调其模型面向不同形态机器人,使用人类数据、机器人数据和层级策略来提升泛化。
这条路线的技术气质是:
| 维度 | Berkeley / Google / PI | CMU / FAIR / Skild |
|---|---|---|
| 数据重心 | 真实机器人轨迹、多任务数据、跨机器人数据集 | 人类视频、仿真、真实机器人反馈、多 embodiment |
| 核心问题 | 如何把 VLM 转成机器人动作 | 如何让一个大脑适配不同身体 |
| 训练范式 | VLA、扩散 / flow action、动作 token | omni-bodied foundation model、层级控制 |
| 商业想象 | 通用操作机器人、家庭 / 工业操作 | 多形态机器人基础大脑 |
5. 世界模型流派:DeepMind、Meta、OpenAI、Schmidhuber / Ha
“世界模型”在今天被用得很泛,至少有四种含义。混在一起看会误判技术路线。
5.1 Ha / Schmidhuber:早期 neural world model
2018 年的 World Models 提出:智能体可以先学习环境的压缩时空表征,然后在模型内部“梦境”中训练策略,再迁移到真实环境。这是现代世界模型叙事的重要早期版本。
这条线的问题意识是:
智能体不必每次都在真实环境中试错,它可以在内部模型中想象未来。
5.2 DeepMind:MuZero、Dreamer、Genie
DeepMind 的世界模型更偏向 model-based RL 和可交互环境建模。
MuZero 学到的是一个用于规划的隐式模型:它不需要预先知道游戏规则,而是学习 reward、value、policy 相关的动态表征,并结合树搜索实现 Atari、Go、Chess、Shogi 的高性能。
Dreamer 系列则学习环境动力学,在 latent imagination 中训练策略;DreamerV3 在 150 多个任务上使用固定超参数,并展示了从像素和稀疏奖励中学习 Minecraft diamond 的能力。
Genie 则是另一条方向:从大量视频中学习可交互、可动作控制的生成式环境。Genie 1 强调从未标注互联网视频中学习 latent actions 和交互环境;Genie 2 / 3 进一步走向可交互 3D 世界和通用世界模型。
5.3 Meta / LeCun:JEPA、V-JEPA、V-JEPA2
Yann LeCun 的世界模型路线与生成式视频模型不同。他长期强调预测表征,而不是预测像素。I-JEPA、V-JEPA 和 V-JEPA2 的核心是:在抽象 latent space 中预测被遮挡或未来部分,从而形成对外部世界的内部模型。
V-JEPA2 尤其值得注意,因为它把大规模视频预训练和少量机器人数据结合起来。官方材料称 V-JEPA2 使用 100 万小时视频和少量机器人数据进行训练,并通过 V-JEPA2-AC 在 Franka 机器人上实现目标条件的抓取 / 放置等任务。这说明 Meta 的路线正在从“视觉表征世界模型”向“可服务机器人控制的世界模型”靠拢。
5.4 OpenAI / Sora 类路线:视频生成作为物理世界模拟
OpenAI 对 Sora 的定位是“教 AI 理解并模拟运动中的物理世界”,目标是训练能解决真实世界交互问题的模型。这条线和 Dreamer / MuZero 不同,它不是先从 RL 控制切入,而是从大规模视觉生成模型切入,把视频生成能力视为世界建模能力的一种表现。
这类路线对机器人真正有用,还需要补上三个环节:
- 动作可控性:模型不仅生成视频,还要理解机器人动作如何改变状态;
- 状态可验证性:世界模型预测的状态要能用于规划和安全评估;
- 闭环控制:模型必须能支持机器人在真实环境中实时纠错。
6. 具身数据采集路线:算法护城河转向数据 flywheel
具身大模型和语言大模型最大的不同是:机器人数据极其昂贵、稀疏、异构、带硬件依赖。
所以这个领域的关键演化不是单纯模型变大,而是数据体系从“实验室小数据”变成“跨机构、跨本体、跨场景的数据基础设施”。
6.1 Berkeley / Stanford / Google 数据线
RoboNet 是早期重要节点,包含来自多种机器人和环境的 1500 万视频帧,目标是让机器人从跨机器人数据中学习可复用的视觉运动能力。
BridgeData V2 则进一步提供 60,096 条轨迹,覆盖 24 个环境,并包含语言和目标图像等标注。
DROID 是近年最重要的真实机器人数据集之一,包含约 76,000 条示范、350 小时数据、564 个场景、84 个任务,由 50 名数据采集者跨北美、亚洲和欧洲收集。它的意义不只是规模,而是说明机器人数据采集开始从单实验室走向分布式、多场景、多采集者。
ALOHA / ACT 则展示了另一条低成本路线:用相对便宜的双臂遥操作硬件收集高质量示范,并用 Action Chunking Transformer 学习长时序动作块。Mobile ALOHA 和后续系统进一步放大了这条路线对具身数据采集的影响。
6.2 Open X-Embodiment:从“我的机器人数据”到“全行业数据混合”
Open X-Embodiment 的意义非常大:它把不同实验室、不同机器人平台的数据合并为一个可训练通用策略的数据池。
这个项目证明,跨机器人数据混合可以产生正迁移,也让 RT-X、Octo、OpenVLA 这类模型有了共同的基础设施。
Octo 是典型代表:它是一个开源 generalist robot policy,基于 Open X-Embodiment 的大规模数据预训练,并允许用户用少量数据微调到新任务。
OpenVLA 则把开源 7B VLA 模型和约 970k 条真实机器人示范结合起来,试图打破此前 VLA 模型闭源、数据不可得的问题。
6.3 Diffusion Policy / UMI:动作生成范式的变化
Diffusion Policy 是操作机器人路线中的关键论文。它把条件扩散模型用于 visuomotor policy,在多个任务和基准中相对传统方法取得显著提升。
它的重要性在于:动作不再只是简单回归,而可以被看作一个多模态轨迹分布的生成问题。
UMI 则解决另一个瓶颈:如何在真实世界中低成本采集人类示范,并把这些示范迁移到机器人策略。
UMI 用手持夹爪和 GoPro 这类低成本硬件采集 in-the-wild 示范,试图让真实世界数据采集更便宜、更广泛。
7. 仿真 / 合成数据路线:NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T
真实数据太贵,所以仿真与合成数据成为另一个强势流派。
MimicGen 通过少量人类示范自动生成大量机器人操作数据,在多个长时序、高精度任务中生成约 50K 条示范。
RoboCasa 则面向家庭厨房等复杂场景,结合 LLM、text-to-3D、text-to-image 等工具生成大量仿真任务和场景。
ManiSkill2 提供 20 个操作任务族、2000 多个物体模型和 400 万以上示范帧,是仿真基准和数据生成的重要基础设施。
NVIDIA GR00T 是仿真、合成数据、人类视频和真实机器人轨迹融合的代表路线。
GR00T N1 被描述为通用 humanoid robot foundation model,使用 egocentric human videos、真实 / 仿真机器人轨迹和合成数据;其架构包含类似“System 2”的视觉语言模块和类似“System 1”的扩散 Transformer 动作模块。
这条路线的技术判断是:
humanoid 和通用操作机器人不可能完全靠真实数据堆出来,必须用仿真、数字孪生、合成数据和真实数据闭环补齐长尾。
8. MIT / Stanford 空间智能与认知路线
这条线不一定直接训练最大 VLA,但它对“世界模型”和“空间智能”的概念影响很深。
8.1 Joshua Tenenbaum / MIT:认知科学、概率程序、物理常识
Joshua Tenenbaum 长期研究计算认知科学,目标是反向工程人类智能,尤其关注人类如何用少量数据理解物体、场景、因果和物理。
MIT 这条线影响了很多 object-centric、neuro-symbolic、intuitive physics、scene understanding 的研究。
Jiajun Wu 是这条线的重要传承者之一。他本科在清华,博士在 MIT,导师是 Bill Freeman 和 Joshua Tenenbaum,后来到 Stanford 任教,研究横跨计算机视觉、机器学习、机器人和计算认知科学。
这条路线的底层信念是:
智能体不只是拟合图像和动作,还要形成关于物体、空间、因果、物理规律的结构化表征。
8.2 Russ Tedrake / MIT:控制、动力学、规划和机器人操作
Russ Tedrake 代表的是 MIT 的控制与动力系统传统。他的机器人研究强调自然动力学、控制、规划、感知-控制闭环和机器学习的结合。
OpenVLA 中也出现了 MIT / Tedrake 系的参与,说明严谨控制与大模型路线正在发生交叉。
8.3 Leslie Kaelbling / Tomás Lozano-Pérez:TAMP 传统
MIT 的 task and motion planning 传统强调把离散任务规划和连续运动规划结合起来。
TAMP 在今天仍然重要,因为 VLA 可以提出高层动作,但长时序任务仍需要可验证规划、约束满足和失败恢复。
这解释了为什么 Gemini Robotics-ER 这类“高层 embodied reasoning”模型会重新重视规划、任务分解、成功判断和工具调用。VLA 负责动作,ER 模型负责空间推理和任务结构。
9. Fei-Fei Li / Stanford / World Labs:从视觉理解到 spatial intelligence
Fei-Fei Li 的路线从大规模视觉识别、视觉理解、场景理解一路延伸到 spatial intelligence。
她曾任 Stanford AI Lab director,并在 Google Cloud AI / ML 担任 Chief Scientist;近期 World Labs 明确聚焦 spatial intelligence,即让 AI 模型感知、生成、推理并与 3D 世界交互。
这条线与机器人学习的区别是:
| 机器人学习路线 | Spatial intelligence 路线 |
|---|---|
| 先问:机器人如何执行动作? | 先问:模型如何理解三维世界? |
| 数据核心是 robot trajectories | 数据核心是图像、视频、3D、场景和空间结构 |
| 输出是动作策略 | 输出是可交互、可推理的世界表征 |
| 典型代表:RT、π0、OpenVLA | 典型代表:World Labs、3D world models、空间生成模型 |
长期看,这两条线会合并:没有空间理解的 VLA 很难泛化;没有动作闭环的空间模型也很难成为机器人智能。
10. 中国路线:数据、硬件、仿真、开源体系并进
国内的具身智能路线有几个明显特征:
- 硬件供应链和人形机器人产业链更近;
- 数据采集平台化、标准化倾向更强;
- 开源数据集、仿真平台、RDT / VLA 模型快速补位;
- 部分核心学术人物具有中美双重学术迁移背景。
10.1 朱松纯 / BIGAI / 北大:认知架构、视觉常识、具身智能
朱松纯长期在 UCLA,后回国创立北京通用人工智能研究院,并在北大、清华担任重要学术角色。其研究长期强调视觉常识、随机文法、认知架构、物理与社会智能等问题。
黄思远是 BIGAI 具身智能方向的重要人物之一。他的公开资料显示,他博士毕业于 UCLA,导师是朱松纯,之后在 BIGAI 做 embodied AI 和 robotics 相关研究。
这条路线不同于纯 VLA 工程化路线,更偏向:
认知架构 + 物理常识 + 任务理解 + 场景语义 + 具身交互。
它与 MIT / Tenenbaum 的计算认知传统、UCLA / Zhu 的视觉常识传统有较强思想亲缘性。
10.2 北大 / Hao Dong / RoboVerse:仿真、数据、benchmark、机器人 scaling law
郝东是北京大学计算机学院 / CFCS 的长聘副教授,研究方向包括 embodied AI、大模型、强化学习、机器人和开源系统。他也参与了 RoboVerse 等面向机器人仿真、合成数据和统一 benchmark 的工作。
RoboVerse 的意义在于,它不是单一数据集,而是一个覆盖仿真平台、合成数据和统一评测的框架,目标是服务 imitation learning、reinforcement learning、world model 和 sim-to-real 等多类算法。
10.3 清华 / RDT-1B:Diffusion Transformer 与双臂操作
RDT-1B 是国内值得重点跟踪的路线之一。
它把 Robotics Diffusion Transformer 用于双臂操作,规模达到 1.2B 参数,并强调统一动作空间、多机器人数据预训练和少量真实 ALOHA 数据微调。
其项目页称模型在 46 个数据集、100 万以上 episodes 上预训练,并在 6000 多个 ALOHA episodes 上微调。
这条线的特点是:
把扩散模型的多模态动作生成能力、Transformer 的规模化能力、双臂操作数据和国产开源模型体系结合起来。
它更接近 Physical Intelligence π0、Diffusion Policy、OpenVLA 的中国版交汇路线。
10.4 上海 AI Lab / InternRobotics / 庞江淼:开源基础设施路线
庞江淼是上海 AI Lab Embodied AI Center 的负责人之一,公开资料显示其经历包括浙江大学博士、香港中文大学博士后、上海 AI Lab 研究科学家等。
上海 AI Lab 的 InternRobotics / OpenRobotLab 明确强调建设 embodied AI 的开放基础设施。
这条路线的关键词是:
开源模型 + 数据集 + 仿真环境 + benchmark + 工程基础设施。
它和国内大模型开源生态有相似逻辑:先通过开放基础设施扩大研究者和开发者网络,再在垂直场景中形成模型和数据闭环。
10.5 RoboMIND / 北京人形机器人创新中心 / AgiBot World:产业级数据平台化
RoboMIND 是国内非常值得关注的数据集路线。
RoboMIND v3 官方信息显示其包含 107k 条轨迹、479 个任务、96 类物体、4 类 embodiment,并包含 5000 条失败示范和 Isaac Sim 数字孪生环境。
项目参与方包括北京人形机器人创新中心、北大、智源等机构。
北京人形机器人创新中心成立于 2023 年,目标是加快人形机器人关键技术供给和产业化。
国内还在推进人形机器人数据集相关国家标准项目,参与单位包括清华、上海 AI Lab、北京 / 上海 / 浙江等创新中心和多家机器人企业。
AgiBot World 则代表产业公司数据开放路线。其资料强调围绕大模型、数据集、工具链等形成开源生态,目标是提升具身智能数据的规模、多样性和质量。
11. 人—机构—技术路线图
可以把当前格局压缩成下面这张文字谱系图:
Andrew Ng / Stanford IRL
↓
Pieter Abbeel / Berkeley Robot Learning / BAIR
↓
Chelsea Finn ─────────────┐
↓ │
Stanford IRIS / Google │
↓ │
Physical Intelligence π0 │
│
Vladlen Koltun ─→ Sergey Levine / Berkeley + Google Robotics
│
├─ RT-1 / RT-2 / Open X / Octo / OpenVLA
└─ Physical Intelligence / π0 / π0.5 / FAST
CMU + FAIR
Deepak Pathak + Abhinav Gupta
↓
Skild AI:omni-bodied robot brain
MIT cognitive / planning / control
Tenenbaum / Kaelbling / Lozano-Pérez / Tedrake
↓
world model, TAMP, intuitive physics, structured scene reasoning
↓
Jiajun Wu / Stanford physical scene understanding
Meta / LeCun / FAIR
↓
JEPA / V-JEPA / V-JEPA2:latent predictive world model
DeepMind
↓
MuZero / Dreamer / Genie / Gemini Robotics
UCLA → BIGAI / 北大 / 清华
Song-Chun Zhu → Siyuan Huang / BIGAI cognitive embodied AI
浙江大学 → CUHK → 上海 AI Lab
Jiangmiao Pang → InternRobotics / OpenRobotLab
清华 / 北大 / 智源 / 北京人形机器人创新中心 / 上海 AI Lab
↓
RDT-1B / RoboMIND / RoboVerse / 国内具身数据与开源基础设施这张图背后的核心逻辑是:算法路线不是抽象演化的,它跟人在哪里读博、在哪个实验室做 postdoc、在哪家公司做过大模型 / 机器人项目、后来带走哪些学生和工程团队高度相关。
12. 技术路线如何随人的流动而演变
12.1 Berkeley → Google → PI:从 RL 到大规模 imitation / VLA
Berkeley 早期强在深度强化学习、模仿学习、视觉运动控制和元学习。
Google Robotics 提供了更大规模的数据、模型训练和机器人平台。
到了 Physical Intelligence,这套能力被公司化为“机器人 foundation model + 多 embodiment 数据 + flow / diffusion action policy”。
因此,这条线的演化是:
轨迹优化 / policy search
→ deep RL / imitation learning
→ visual foresight / meta-learning
→ Robotics Transformer
→ VLA
→ flow / diffusion action foundation model12.2 DeepMind / Meta:从环境动力学到通用世界模型
DeepMind 的世界模型一开始更偏 RL:MuZero 和 Dreamer 关心如何用 learned model 支持规划和策略学习。
Genie 则转向可交互环境生成。
Meta 的 JEPA 路线更强调非生成式表征预测,即学习世界的 latent structure,而不是逐像素生成未来。
这说明“世界模型”正在分裂成三种工程路线:
| 类型 | 代表 | 主要用途 |
|---|---|---|
| RL world model | Dreamer、MuZero | 在 latent imagination 中学习控制策略 |
| 生成式 world simulator | Genie、Sora | 生成可交互或近似可交互环境 |
| 表征预测 world model | JEPA、V-JEPA2 | 学习物理世界的抽象状态和变化规律 |
12.3 Stanford / MIT / World Labs:从 2D 视觉到 3D 空间智能
Fei-Fei Li、Jiajun Wu、Tenenbaum、Tedrake 等人的路线,强调视觉、3D、物理、场景和空间结构。
它不是直接从“机器人动作数据”开始,而是从“世界如何被表征”开始。
未来这条线与 VLA 的合流会非常关键。原因很简单:机器人泛化需要的不只是“见过类似任务”,还需要理解:
- 物体之间的空间关系;
- 支撑、遮挡、碰撞、可达性;
- 容器、工具、关节、材质;
- 长时序任务中的状态变化;
- 人类语言中的隐含目标和物理约束。
12.4 中国路线:从论文复现到“数据—硬件—平台—标准”一体化
中国具身智能的优势不一定在最早提出某个算法范式,而在于:
- 机器人硬件和供应链密度高;
- 人形机器人、双臂、移动操作平台部署快;
- 数据采集可以组织化、平台化、标准化;
- 开源模型和数据集可以迅速形成生态。
RoboMIND、RDT-1B、RoboVerse、InternRobotics、AgiBot World 这些项目,说明国内正在从“做单点模型”转向“做数据、仿真、模型、评测、工具链”。
13. 深层技术分歧
13.1 分歧一:动作是 token、连续轨迹,还是扩散 / flow 生成?
RT-2 把动作表示成文本 token,便于和 VLM 统一;Diffusion Policy、π0、RDT-1B、GR00T 则更偏向连续动作分布生成,适合处理多模态、精细操作和长动作块。
判断:
高层决策会越来越 token 化,低层控制会越来越 diffusion / flow / continuous action generation 化。
13.2 分歧二:数据应该来自真实机器人,还是人类视频 / 仿真 / 合成数据?
PI、OpenVLA、DROID、Open X 更强调真实机器人数据;Skild、GR00T、Genie、V-JEPA2 更积极使用人类视频、仿真、互联网视频或合成数据。
未来不会二选一,而是形成分层:
| 数据类型 | 最适合学什么 |
|---|---|
| 互联网图文 | 语义、物体、常识、语言指令 |
| 互联网视频 / 人类视频 | 物体变化、任务意图、动作先验 |
| 仿真 / 合成数据 | 长尾场景、安全边界、规模化探索 |
| 真实机器人轨迹 | 接触动力学、控制闭环、执行误差 |
| 失败示范 | 纠错、安全、恢复策略 |
13.3 分歧三:世界模型是“显式模块”,还是被 VLA 隐式吸收?
DeepMind、Meta、OpenAI 更倾向于把 world model 作为明确研究对象;RT、π0、OpenVLA、GR00T 这类机器人策略模型则可能把一部分世界知识隐式吸收到 VLA 或 action model 里。
未来可能出现两层结构:
高层:world model / embodied reasoning model
- 预测后果
- 规划任务
- 做安全评估
- 判断成功/失败
低层:robot action policy
- 生成连续动作
- 处理接触动力学
- 闭环纠错Gemini Robotics-ER 与 Gemini Robotics VLA 的分工已经体现了这个方向。
14. 对一级市场判断的价值
14.1 看创始团队,不只看 demo
具身智能公司的技术路线通常能从团队来源推断:
| 团队来源 | 高概率技术路线 |
|---|---|
| Berkeley / Stanford / Google Robotics | 真实机器人数据、模仿学习、VLA、通用操作 |
| CMU / FAIR | 人类视频、多 embodiment、视觉探索、通用机器人 brain |
| NVIDIA / UT Austin / sim labs | 仿真、合成数据、数字孪生、humanoid policy |
| MIT control / planning | TAMP、可验证规划、动力学控制、长时序任务 |
| Meta / DeepMind | 世界模型、视频表征、RL、可交互环境 |
| 国内创新中心 / 机器人本体厂 | 数据工厂、硬件闭环、场景落地、标准化采集 |
14.2 现在最稀缺的不是“又一个 VLA”,而是三件事
-
可规模化的数据闭环
是否有真实机器人 fleet、远程遥操作、失败数据、自动标注、持续训练? -
跨 embodiment action representation
模型是否能适配不同机械臂、夹爪、移动底盘、人形机器人?还是只能在一个硬件上 demo? -
可评测的泛化能力
是否有 OOD 场景评测、长时序任务、失败恢复、安全边界、真实部署数据?
这些问题比“模型参数多少”“是否用了 Transformer”“demo 看起来是否丝滑”更重要。
15. 一句话总结
当前具身智能的主线,是:
Berkeley / Stanford / Google 的机器人学习谱系,把深度模仿学习和 VLA 推成主流;DeepMind / Meta / OpenAI 把世界模型从 RL 动力学扩展到视频和交互式环境;NVIDIA / UT Austin 等把仿真和合成数据变成规模化工具;中国则正在把硬件、数据采集、开源模型、仿真平台和产业标准组合成自己的具身数据基础设施。
真正决定未来路线胜负的,不是单个模型架构,而是:
人物与实验室谱系
→ 技术信仰
→ 数据采集方式
→ 训练范式
→ 硬件闭环
→ 评测体系
→ 公司化能力这就是为什么研究“师承、流转、变迁”非常有价值:它能帮助提前判断一个团队到底会走 VLA、world model、sim-first、data-first、hardware-first,还是 cognitive architecture 这几条完全不同的路。
16. 参考来源
注:以下为本文涉及的主要公开论文、项目页、官方履历和公司信息来源。部分信息用于支持人物履历、项目规模、技术路线和机构流转判断。
Berkeley / Stanford / Google Robotics / PI
- Andrew Ng Stanford Robotics Group: https://robotics.stanford.edu/~ang/group.html
- Pieter Abbeel UC Berkeley profile: https://www2.eecs.berkeley.edu/Faculty/Homepages/abbeel.html
- Sergey Levine CV: https://people.eecs.berkeley.edu/~svlevine/papers/cv.pdf
- Chelsea Finn OpenReview profile: https://openreview.net/profile?id=~Chelsea_Finn1
- Physical Intelligence / Sequoia company page: https://sequoiacap.com/companies/physical-intelligence/
- Amazon hires Covariant founders / TechCrunch: https://techcrunch.com/2024/08/31/amazon-hires-the-founders-of-robotics-ai-startup-covariant/
Google / DeepMind / VLA
- RT-1: https://arxiv.org/abs/2212.06817
- SayCan: https://arxiv.org/abs/2204.01691
- RT-2: https://arxiv.org/abs/2307.15818
- Open X-Embodiment: https://arxiv.org/abs/2310.08864
- PaLM-E: https://arxiv.org/abs/2303.03378
- Gemini Robotics: https://deepmind.google/models/gemini-robotics/
- Gemini Robotics-ER 1.6: https://deepmind.google/blog/gemini-robotics-er-1-6/
世界模型
- World Models: https://arxiv.org/abs/1803.10122
- MuZero: https://arxiv.org/abs/1911.08265
- DreamerV3: https://arxiv.org/abs/2301.04104
- Genie: https://arxiv.org/abs/2402.15391
- I-JEPA: https://openreview.net/pdf?id=BZ5a1r-kVsf
- V-JEPA2: https://arxiv.org/abs/2506.09985
- OpenAI Sora / Video generation models as world simulators: https://openai.com/index/video-generation-models-as-world-simulators/
数据采集 / 开源机器人策略
- RoboNet: https://arxiv.org/abs/1910.11215
- BridgeData V2: https://arxiv.org/abs/2308.12952
- DROID: https://arxiv.org/abs/2403.12945
- ALOHA / ACT: https://arxiv.org/abs/2304.13705
- Octo: https://arxiv.org/abs/2405.12213
- OpenVLA: https://arxiv.org/abs/2406.09246
- Diffusion Policy: https://diffusion-policy.cs.columbia.edu/
- UMI: https://umi-gripper.github.io/
仿真 / 合成数据 / Humanoid
- MimicGen: https://research.nvidia.com/labs/srl/publication/mandlekar-2023-mimic-gen/
- RoboCasa: https://robocasa.ai/
- ManiSkill2: https://arxiv.org/abs/2302.04659
- NVIDIA GR00T N1: https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots
MIT / Stanford / 空间智能
- Joshua Tenenbaum / MIT SQI: https://sqi.mit.edu/about/people/joshua-tenenbaum
- Jiajun Wu: https://jiajunwu.com/
- Russ Tedrake: https://locomotion.csail.mit.edu/russt.html
- Task and Motion Planning survey: https://arxiv.org/abs/2010.01083
- Fei-Fei Li / Stanford HAI: https://hai.stanford.edu/people/fei-fei-li
- World Labs: https://www.worldlabs.ai/
中国路线
- Song-Chun Zhu: https://zhusongchun.net/
- Siyuan Huang OpenReview profile: https://openreview.net/profile?id=~Siyuan_Huang2
- Hao Dong: https://zsdonghao.github.io/
- RoboVerse: https://arxiv.org/abs/2504.18904
- RDT-1B: https://arxiv.org/abs/2410.07864
- Jiangmiao Pang OpenReview profile: https://openreview.net/profile?id=~Jiangmiao_Pang1
- RoboMIND: https://arxiv.org/abs/2412.13877
- 北京人形机器人创新中心新闻: https://english.beijing.gov.cn/latest/news/202311/t20231105_3295012.html
- AgiBot World: https://agibot-world.com/