具身大模型 / 世界模型 / 具身数据路线的学术谱系与技术变迁

生成日期:2026-05-25
主题:从具身大模型、世界模型、具身数据采集与训练的角度,梳理海内外高校、学术流派、科研领军人物之间的师承、流转、变迁关系,并理解技术路线如何随人的传承和迁移而演变。


目录

  1. 总览:五条技术传统的汇流
  2. Berkeley / Stanford / Google Robotics / Physical Intelligence:机器人学习正统
  3. Google / DeepMind:从 SayCan、PaLM-E、RT 到 Gemini Robotics
  4. CMU / FAIR / Skild AI:从视觉探索到 omni-bodied robot brain
  5. 世界模型流派:DeepMind、Meta、OpenAI、Schmidhuber / Ha
  6. 具身数据采集路线:算法护城河转向数据 flywheel
  7. 仿真 / 合成数据路线:NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T
  8. MIT / Stanford 空间智能与认知路线
  9. Fei-Fei Li / Stanford / World Labs:从视觉理解到 spatial intelligence
  10. 中国路线:数据、硬件、仿真、开源体系并进
  11. 人—机构—技术路线图
  12. 技术路线如何随人的流动而演变
  13. 深层技术分歧
  14. 对一级市场判断的价值
  15. 一句话总结
  16. 参考来源

1. 总览:五条技术传统的汇流

当前具身智能的主流范式,本质上是五个学术传统的汇合:

谱系早期问题意识今天演化成什么
机器人学习 / 模仿学习 / 深度强化学习机器人如何从示范、试错、轨迹优化中学技能RT-1 / RT-2、Octo、OpenVLA、π0、Gemini Robotics、Skild Brain
世界模型 / model-based RL智能体是否能先学习环境动力学,再在“想象”中规划Dreamer、MuZero、Genie、V-JEPA2、Sora 类世界模拟器
视觉-语言-空间理解机器如何理解物体、场景、3D 空间、物理常识PaLM-E、VLA、spatial intelligence、具身推理模型
数据采集 / 跨机器人数据混合机器人数据太贵、太碎、不可复用,如何规模化RoboNet、BridgeData、Open X-Embodiment、DROID、ALOHA、UMI、RoboMIND
仿真 / 数字孪生 / 合成数据真实机器人训练成本太高,能否用仿真补齐长尾MimicGen、RoboCasa、ManiSkill、RoboVerse、NVIDIA GR00T

最重要的变化是:2018 年前,核心问题是“怎么让机器人学会一个任务”;2023 年后,核心问题变成“怎么训练一个可跨机器人、跨任务、跨场景泛化的具身基础模型”。

RT-1 / RT-2、Open X-Embodiment、Octo、OpenVLA、π0 / π0.5、GR00T 和 Gemini Robotics 都沿着这个方向推进。


2. Berkeley / Stanford / Google Robotics / Physical Intelligence:机器人学习正统

这条线是今天具身大模型最核心的人才与思想来源之一。

2.1 Andrew Ng → Pieter Abbeel → Berkeley Robot Learning / BAIR

Pieter Abbeel 的博士导师是 Andrew Ng,他在 Stanford 做的主题是 apprenticeship learning / reinforcement learning for robotic control,也就是通过示范和强化学习让机器人掌握控制策略。后来 Abbeel 到 UC Berkeley,成为 Berkeley Robot Learning Lab 和 BAIR 的关键人物之一,研究方向覆盖深度强化学习、模仿学习、迁移、元学习和机器人控制。

这条线的早期技术精神是:

机器人不应只靠手工控制器,而应从数据、示范、试错中学习控制策略。

这直接孕育了后来两类路线:

  1. 工业化机器人基础模型路线:Covariant,后来与 Amazon Robotics 发生人才和技术迁移;
  2. 学术开源路线:RoboNet、BridgeData、DROID、Octo、OpenVLA 等数据与模型体系。

Amazon 在 2024 年吸纳 Covariant 创始团队成员,并获得其机器人基础模型的非独占许可,这可以看作 Berkeley 机器人学习路线向大型工业机器人部署体系的一次重要迁移。

2.2 Vladlen Koltun → Sergey Levine → Berkeley / Google / Physical Intelligence

Sergey Levine 的博士导师是 Vladlen Koltun。Levine 早期做 guided policy search、轨迹优化、深度强化学习和端到端视觉-运动控制,之后在 Berkeley 和 Google Robotics 形成了非常强的“机器人学习 + 大规模数据 + 神经策略”路线。

这条线最关键的思想转变是:

从“优化单个任务的控制策略”转向“用大量多任务、多物体、多场景数据预训练通用机器人策略”。

RT-1 就是这个转折点之一。它把 Transformer 用于机器人动作序列建模,并强调从大规模、多任务机器人轨迹中吸收能力。RT-2 更进一步,把视觉语言模型和机器人动作统一到一个 VLA 框架里:模型既读图文,也输出机器人动作。

2.3 Chelsea Finn:Berkeley → Google → Stanford → Physical Intelligence

Chelsea Finn 的博士导师是 Pieter Abbeel 和 Sergey Levine。她后来在 Google、Stanford、Physical Intelligence 之间形成了一个极关键的桥梁角色。她的研究主题覆盖元学习、模仿学习、机器人泛化、视觉运动控制和大规模机器人数据。

她这条线的核心价值在于:把 Berkeley 的机器人学习思想、Google 的大规模模型与数据工程、Stanford 的基础研究体系和 Physical Intelligence 的机器人 foundation model 公司化路线串了起来。

Physical Intelligence 的创始团队包括 Chelsea Finn、Karol Hausman、Sergey Levine、Brian Ichter、Lachy Groom 等人,其中多位来自 Google Robotics / DeepMind / Stanford / Berkeley 网络。PI 的 π0、π0.5 和 FAST 体现了这条线的新形态:用预训练视觉语言模型、流匹配 / 扩散式动作生成、异构机器人数据和动作 tokenization 来训练通用机器人策略。


3. Google / DeepMind:从 SayCan、PaLM-E、RT 到 Gemini Robotics

Google Robotics / DeepMind 这条线的贡献,是把大语言模型、视觉语言模型和机器人控制真正合并起来。

3.1 技术递进

阶段代表工作核心思想
SayCanPaLM-SayCanLLM 负责高层任务分解,机器人技能模型判断动作可执行性
PaLM-EEmbodied multimodal language model把视觉、语言、机器人状态放进同一个大模型
RT-1Robotics TransformerTransformer 直接建模机器人轨迹和动作
RT-2Vision-Language-Action model把网页图文知识迁移到机器人动作
Open X-Embodiment / RT-X跨机器人数据混合多机构、多机器人、多任务数据共同训练
Gemini RoboticsEmbodied reasoning + VLA高层空间推理、任务规划、工具调用与低层动作结合

SayCan 的关键不是“LLM 直接控制机器人”,而是让 LLM 提出候选高层动作,再由 affordance / skill model 判断哪些动作在当前环境中可执行。

PaLM-E 则进一步把语言、视觉和具身状态统一输入大模型。RT-2 把动作表示成类似语言 token 的形式,使互联网规模的视觉语言知识能迁移到机器人动作决策中。

Open X-Embodiment 是一个标志性拐点:它包含来自 21 个机构、22 种机器人、160,266 个任务的开放数据集,并训练 RT-1-X / RT-2-X 这样的跨 embodiment 模型。这个项目说明,机器人策略的泛化开始依赖“跨本体数据混合”,而不是单一实验室、单一机械臂、单一任务集。

Gemini Robotics 则把这条线推进到“具身推理模型”阶段。Gemini Robotics-ER 1.6 被定位为 embodied reasoning 模型,负责视觉-空间理解、任务规划、成功判断和工具调用;Gemini Robotics 1.5 则更接近把视觉信息和指令转成动作的 VLA 模型。


4. CMU / FAIR / Skild AI:从视觉探索到 omni-bodied robot brain

CMU 这条线和 Berkeley / Google 有明显区别。Berkeley / Google 更强调真实机器人数据、模仿学习、VLA;CMU / FAIR / Skild 更强调:

一个模型能否跨越不同身体形态、不同机器人平台、不同任务,成为“任何机器人都能用的大脑”。

Deepak Pathak 是 CMU Robotics Institute 的教授,研究横跨计算机视觉、机器学习和机器人。他与 Abhinav Gupta 创办 Skild AI,主张训练一个能泛化到多种硬件和任务的机器人基础模型。Skild 官方材料强调其模型面向不同形态机器人,使用人类数据、机器人数据和层级策略来提升泛化。

这条路线的技术气质是:

维度Berkeley / Google / PICMU / FAIR / Skild
数据重心真实机器人轨迹、多任务数据、跨机器人数据集人类视频、仿真、真实机器人反馈、多 embodiment
核心问题如何把 VLM 转成机器人动作如何让一个大脑适配不同身体
训练范式VLA、扩散 / flow action、动作 tokenomni-bodied foundation model、层级控制
商业想象通用操作机器人、家庭 / 工业操作多形态机器人基础大脑

5. 世界模型流派:DeepMind、Meta、OpenAI、Schmidhuber / Ha

“世界模型”在今天被用得很泛,至少有四种含义。混在一起看会误判技术路线。

5.1 Ha / Schmidhuber:早期 neural world model

2018 年的 World Models 提出:智能体可以先学习环境的压缩时空表征,然后在模型内部“梦境”中训练策略,再迁移到真实环境。这是现代世界模型叙事的重要早期版本。

这条线的问题意识是:

智能体不必每次都在真实环境中试错,它可以在内部模型中想象未来。

5.2 DeepMind:MuZero、Dreamer、Genie

DeepMind 的世界模型更偏向 model-based RL 和可交互环境建模。

MuZero 学到的是一个用于规划的隐式模型:它不需要预先知道游戏规则,而是学习 reward、value、policy 相关的动态表征,并结合树搜索实现 Atari、Go、Chess、Shogi 的高性能。

Dreamer 系列则学习环境动力学,在 latent imagination 中训练策略;DreamerV3 在 150 多个任务上使用固定超参数,并展示了从像素和稀疏奖励中学习 Minecraft diamond 的能力。

Genie 则是另一条方向:从大量视频中学习可交互、可动作控制的生成式环境。Genie 1 强调从未标注互联网视频中学习 latent actions 和交互环境;Genie 2 / 3 进一步走向可交互 3D 世界和通用世界模型。

5.3 Meta / LeCun:JEPA、V-JEPA、V-JEPA2

Yann LeCun 的世界模型路线与生成式视频模型不同。他长期强调预测表征,而不是预测像素。I-JEPA、V-JEPA 和 V-JEPA2 的核心是:在抽象 latent space 中预测被遮挡或未来部分,从而形成对外部世界的内部模型。

V-JEPA2 尤其值得注意,因为它把大规模视频预训练和少量机器人数据结合起来。官方材料称 V-JEPA2 使用 100 万小时视频和少量机器人数据进行训练,并通过 V-JEPA2-AC 在 Franka 机器人上实现目标条件的抓取 / 放置等任务。这说明 Meta 的路线正在从“视觉表征世界模型”向“可服务机器人控制的世界模型”靠拢。

5.4 OpenAI / Sora 类路线:视频生成作为物理世界模拟

OpenAI 对 Sora 的定位是“教 AI 理解并模拟运动中的物理世界”,目标是训练能解决真实世界交互问题的模型。这条线和 Dreamer / MuZero 不同,它不是先从 RL 控制切入,而是从大规模视觉生成模型切入,把视频生成能力视为世界建模能力的一种表现。

这类路线对机器人真正有用,还需要补上三个环节:

  1. 动作可控性:模型不仅生成视频,还要理解机器人动作如何改变状态;
  2. 状态可验证性:世界模型预测的状态要能用于规划和安全评估;
  3. 闭环控制:模型必须能支持机器人在真实环境中实时纠错。

6. 具身数据采集路线:算法护城河转向数据 flywheel

具身大模型和语言大模型最大的不同是:机器人数据极其昂贵、稀疏、异构、带硬件依赖

所以这个领域的关键演化不是单纯模型变大,而是数据体系从“实验室小数据”变成“跨机构、跨本体、跨场景的数据基础设施”。

6.1 Berkeley / Stanford / Google 数据线

RoboNet 是早期重要节点,包含来自多种机器人和环境的 1500 万视频帧,目标是让机器人从跨机器人数据中学习可复用的视觉运动能力。

BridgeData V2 则进一步提供 60,096 条轨迹,覆盖 24 个环境,并包含语言和目标图像等标注。

DROID 是近年最重要的真实机器人数据集之一,包含约 76,000 条示范、350 小时数据、564 个场景、84 个任务,由 50 名数据采集者跨北美、亚洲和欧洲收集。它的意义不只是规模,而是说明机器人数据采集开始从单实验室走向分布式、多场景、多采集者。

ALOHA / ACT 则展示了另一条低成本路线:用相对便宜的双臂遥操作硬件收集高质量示范,并用 Action Chunking Transformer 学习长时序动作块。Mobile ALOHA 和后续系统进一步放大了这条路线对具身数据采集的影响。

6.2 Open X-Embodiment:从“我的机器人数据”到“全行业数据混合”

Open X-Embodiment 的意义非常大:它把不同实验室、不同机器人平台的数据合并为一个可训练通用策略的数据池。

这个项目证明,跨机器人数据混合可以产生正迁移,也让 RT-X、Octo、OpenVLA 这类模型有了共同的基础设施。

Octo 是典型代表:它是一个开源 generalist robot policy,基于 Open X-Embodiment 的大规模数据预训练,并允许用户用少量数据微调到新任务。

OpenVLA 则把开源 7B VLA 模型和约 970k 条真实机器人示范结合起来,试图打破此前 VLA 模型闭源、数据不可得的问题。

6.3 Diffusion Policy / UMI:动作生成范式的变化

Diffusion Policy 是操作机器人路线中的关键论文。它把条件扩散模型用于 visuomotor policy,在多个任务和基准中相对传统方法取得显著提升。

它的重要性在于:动作不再只是简单回归,而可以被看作一个多模态轨迹分布的生成问题。

UMI 则解决另一个瓶颈:如何在真实世界中低成本采集人类示范,并把这些示范迁移到机器人策略。

UMI 用手持夹爪和 GoPro 这类低成本硬件采集 in-the-wild 示范,试图让真实世界数据采集更便宜、更广泛。


7. 仿真 / 合成数据路线:NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T

真实数据太贵,所以仿真与合成数据成为另一个强势流派。

MimicGen 通过少量人类示范自动生成大量机器人操作数据,在多个长时序、高精度任务中生成约 50K 条示范。

RoboCasa 则面向家庭厨房等复杂场景,结合 LLM、text-to-3D、text-to-image 等工具生成大量仿真任务和场景。

ManiSkill2 提供 20 个操作任务族、2000 多个物体模型和 400 万以上示范帧,是仿真基准和数据生成的重要基础设施。

NVIDIA GR00T 是仿真、合成数据、人类视频和真实机器人轨迹融合的代表路线。

GR00T N1 被描述为通用 humanoid robot foundation model,使用 egocentric human videos、真实 / 仿真机器人轨迹和合成数据;其架构包含类似“System 2”的视觉语言模块和类似“System 1”的扩散 Transformer 动作模块。

这条路线的技术判断是:

humanoid 和通用操作机器人不可能完全靠真实数据堆出来,必须用仿真、数字孪生、合成数据和真实数据闭环补齐长尾。


8. MIT / Stanford 空间智能与认知路线

这条线不一定直接训练最大 VLA,但它对“世界模型”和“空间智能”的概念影响很深。

8.1 Joshua Tenenbaum / MIT:认知科学、概率程序、物理常识

Joshua Tenenbaum 长期研究计算认知科学,目标是反向工程人类智能,尤其关注人类如何用少量数据理解物体、场景、因果和物理。

MIT 这条线影响了很多 object-centric、neuro-symbolic、intuitive physics、scene understanding 的研究。

Jiajun Wu 是这条线的重要传承者之一。他本科在清华,博士在 MIT,导师是 Bill Freeman 和 Joshua Tenenbaum,后来到 Stanford 任教,研究横跨计算机视觉、机器学习、机器人和计算认知科学。

这条路线的底层信念是:

智能体不只是拟合图像和动作,还要形成关于物体、空间、因果、物理规律的结构化表征。

8.2 Russ Tedrake / MIT:控制、动力学、规划和机器人操作

Russ Tedrake 代表的是 MIT 的控制与动力系统传统。他的机器人研究强调自然动力学、控制、规划、感知-控制闭环和机器学习的结合。

OpenVLA 中也出现了 MIT / Tedrake 系的参与,说明严谨控制与大模型路线正在发生交叉。

8.3 Leslie Kaelbling / Tomás Lozano-Pérez:TAMP 传统

MIT 的 task and motion planning 传统强调把离散任务规划和连续运动规划结合起来。

TAMP 在今天仍然重要,因为 VLA 可以提出高层动作,但长时序任务仍需要可验证规划、约束满足和失败恢复。

这解释了为什么 Gemini Robotics-ER 这类“高层 embodied reasoning”模型会重新重视规划、任务分解、成功判断和工具调用。VLA 负责动作,ER 模型负责空间推理和任务结构。


9. Fei-Fei Li / Stanford / World Labs:从视觉理解到 spatial intelligence

Fei-Fei Li 的路线从大规模视觉识别、视觉理解、场景理解一路延伸到 spatial intelligence。

她曾任 Stanford AI Lab director,并在 Google Cloud AI / ML 担任 Chief Scientist;近期 World Labs 明确聚焦 spatial intelligence,即让 AI 模型感知、生成、推理并与 3D 世界交互。

这条线与机器人学习的区别是:

机器人学习路线Spatial intelligence 路线
先问:机器人如何执行动作?先问:模型如何理解三维世界?
数据核心是 robot trajectories数据核心是图像、视频、3D、场景和空间结构
输出是动作策略输出是可交互、可推理的世界表征
典型代表:RT、π0、OpenVLA典型代表:World Labs、3D world models、空间生成模型

长期看,这两条线会合并:没有空间理解的 VLA 很难泛化;没有动作闭环的空间模型也很难成为机器人智能。


10. 中国路线:数据、硬件、仿真、开源体系并进

国内的具身智能路线有几个明显特征:

  1. 硬件供应链和人形机器人产业链更近
  2. 数据采集平台化、标准化倾向更强
  3. 开源数据集、仿真平台、RDT / VLA 模型快速补位
  4. 部分核心学术人物具有中美双重学术迁移背景。

10.1 朱松纯 / BIGAI / 北大:认知架构、视觉常识、具身智能

朱松纯长期在 UCLA,后回国创立北京通用人工智能研究院,并在北大、清华担任重要学术角色。其研究长期强调视觉常识、随机文法、认知架构、物理与社会智能等问题。

黄思远是 BIGAI 具身智能方向的重要人物之一。他的公开资料显示,他博士毕业于 UCLA,导师是朱松纯,之后在 BIGAI 做 embodied AI 和 robotics 相关研究。

这条路线不同于纯 VLA 工程化路线,更偏向:

认知架构 + 物理常识 + 任务理解 + 场景语义 + 具身交互。

它与 MIT / Tenenbaum 的计算认知传统、UCLA / Zhu 的视觉常识传统有较强思想亲缘性。

10.2 北大 / Hao Dong / RoboVerse:仿真、数据、benchmark、机器人 scaling law

郝东是北京大学计算机学院 / CFCS 的长聘副教授,研究方向包括 embodied AI、大模型、强化学习、机器人和开源系统。他也参与了 RoboVerse 等面向机器人仿真、合成数据和统一 benchmark 的工作。

RoboVerse 的意义在于,它不是单一数据集,而是一个覆盖仿真平台、合成数据和统一评测的框架,目标是服务 imitation learning、reinforcement learning、world model 和 sim-to-real 等多类算法。

10.3 清华 / RDT-1B:Diffusion Transformer 与双臂操作

RDT-1B 是国内值得重点跟踪的路线之一。

它把 Robotics Diffusion Transformer 用于双臂操作,规模达到 1.2B 参数,并强调统一动作空间、多机器人数据预训练和少量真实 ALOHA 数据微调。

其项目页称模型在 46 个数据集、100 万以上 episodes 上预训练,并在 6000 多个 ALOHA episodes 上微调。

这条线的特点是:

把扩散模型的多模态动作生成能力、Transformer 的规模化能力、双臂操作数据和国产开源模型体系结合起来。

它更接近 Physical Intelligence π0、Diffusion Policy、OpenVLA 的中国版交汇路线。

10.4 上海 AI Lab / InternRobotics / 庞江淼:开源基础设施路线

庞江淼是上海 AI Lab Embodied AI Center 的负责人之一,公开资料显示其经历包括浙江大学博士、香港中文大学博士后、上海 AI Lab 研究科学家等。

上海 AI Lab 的 InternRobotics / OpenRobotLab 明确强调建设 embodied AI 的开放基础设施。

这条路线的关键词是:

开源模型 + 数据集 + 仿真环境 + benchmark + 工程基础设施。

它和国内大模型开源生态有相似逻辑:先通过开放基础设施扩大研究者和开发者网络,再在垂直场景中形成模型和数据闭环。

10.5 RoboMIND / 北京人形机器人创新中心 / AgiBot World:产业级数据平台化

RoboMIND 是国内非常值得关注的数据集路线。

RoboMIND v3 官方信息显示其包含 107k 条轨迹、479 个任务、96 类物体、4 类 embodiment,并包含 5000 条失败示范和 Isaac Sim 数字孪生环境。

项目参与方包括北京人形机器人创新中心、北大、智源等机构。

北京人形机器人创新中心成立于 2023 年,目标是加快人形机器人关键技术供给和产业化。

国内还在推进人形机器人数据集相关国家标准项目,参与单位包括清华、上海 AI Lab、北京 / 上海 / 浙江等创新中心和多家机器人企业。

AgiBot World 则代表产业公司数据开放路线。其资料强调围绕大模型、数据集、工具链等形成开源生态,目标是提升具身智能数据的规模、多样性和质量。


11. 人—机构—技术路线图

可以把当前格局压缩成下面这张文字谱系图:

Andrew Ng / Stanford IRL

Pieter Abbeel / Berkeley Robot Learning / BAIR

Chelsea Finn ─────────────┐
        ↓                 │
Stanford IRIS / Google     │
        ↓                 │
Physical Intelligence π0   │

Vladlen Koltun ─→ Sergey Levine / Berkeley + Google Robotics

                          ├─ RT-1 / RT-2 / Open X / Octo / OpenVLA
                          └─ Physical Intelligence / π0 / π0.5 / FAST
 
 
CMU + FAIR
Deepak Pathak + Abhinav Gupta

Skild AI:omni-bodied robot brain
 
 
MIT cognitive / planning / control
Tenenbaum / Kaelbling / Lozano-Pérez / Tedrake

world model, TAMP, intuitive physics, structured scene reasoning

Jiajun Wu / Stanford physical scene understanding
 
 
Meta / LeCun / FAIR

JEPA / V-JEPA / V-JEPA2:latent predictive world model
 
 
DeepMind

MuZero / Dreamer / Genie / Gemini Robotics
 
 
UCLA → BIGAI / 北大 / 清华
Song-Chun Zhu → Siyuan Huang / BIGAI cognitive embodied AI
 
 
浙江大学 → CUHK → 上海 AI Lab
Jiangmiao Pang → InternRobotics / OpenRobotLab
 
 
清华 / 北大 / 智源 / 北京人形机器人创新中心 / 上海 AI Lab

RDT-1B / RoboMIND / RoboVerse / 国内具身数据与开源基础设施

这张图背后的核心逻辑是:算法路线不是抽象演化的,它跟人在哪里读博、在哪个实验室做 postdoc、在哪家公司做过大模型 / 机器人项目、后来带走哪些学生和工程团队高度相关。


12. 技术路线如何随人的流动而演变

12.1 Berkeley → Google → PI:从 RL 到大规模 imitation / VLA

Berkeley 早期强在深度强化学习、模仿学习、视觉运动控制和元学习。

Google Robotics 提供了更大规模的数据、模型训练和机器人平台。

到了 Physical Intelligence,这套能力被公司化为“机器人 foundation model + 多 embodiment 数据 + flow / diffusion action policy”。

因此,这条线的演化是:

轨迹优化 / policy search
→ deep RL / imitation learning
→ visual foresight / meta-learning
→ Robotics Transformer
→ VLA
→ flow / diffusion action foundation model

12.2 DeepMind / Meta:从环境动力学到通用世界模型

DeepMind 的世界模型一开始更偏 RL:MuZero 和 Dreamer 关心如何用 learned model 支持规划和策略学习。

Genie 则转向可交互环境生成。

Meta 的 JEPA 路线更强调非生成式表征预测,即学习世界的 latent structure,而不是逐像素生成未来。

这说明“世界模型”正在分裂成三种工程路线:

类型代表主要用途
RL world modelDreamer、MuZero在 latent imagination 中学习控制策略
生成式 world simulatorGenie、Sora生成可交互或近似可交互环境
表征预测 world modelJEPA、V-JEPA2学习物理世界的抽象状态和变化规律

12.3 Stanford / MIT / World Labs:从 2D 视觉到 3D 空间智能

Fei-Fei Li、Jiajun Wu、Tenenbaum、Tedrake 等人的路线,强调视觉、3D、物理、场景和空间结构。

它不是直接从“机器人动作数据”开始,而是从“世界如何被表征”开始。

未来这条线与 VLA 的合流会非常关键。原因很简单:机器人泛化需要的不只是“见过类似任务”,还需要理解:

  • 物体之间的空间关系;
  • 支撑、遮挡、碰撞、可达性;
  • 容器、工具、关节、材质;
  • 长时序任务中的状态变化;
  • 人类语言中的隐含目标和物理约束。

12.4 中国路线:从论文复现到“数据—硬件—平台—标准”一体化

中国具身智能的优势不一定在最早提出某个算法范式,而在于:

  1. 机器人硬件和供应链密度高
  2. 人形机器人、双臂、移动操作平台部署快
  3. 数据采集可以组织化、平台化、标准化
  4. 开源模型和数据集可以迅速形成生态

RoboMIND、RDT-1B、RoboVerse、InternRobotics、AgiBot World 这些项目,说明国内正在从“做单点模型”转向“做数据、仿真、模型、评测、工具链”。


13. 深层技术分歧

13.1 分歧一:动作是 token、连续轨迹,还是扩散 / flow 生成?

RT-2 把动作表示成文本 token,便于和 VLM 统一;Diffusion Policy、π0、RDT-1B、GR00T 则更偏向连续动作分布生成,适合处理多模态、精细操作和长动作块。

判断:

高层决策会越来越 token 化,低层控制会越来越 diffusion / flow / continuous action generation 化。

13.2 分歧二:数据应该来自真实机器人,还是人类视频 / 仿真 / 合成数据?

PI、OpenVLA、DROID、Open X 更强调真实机器人数据;Skild、GR00T、Genie、V-JEPA2 更积极使用人类视频、仿真、互联网视频或合成数据。

未来不会二选一,而是形成分层:

数据类型最适合学什么
互联网图文语义、物体、常识、语言指令
互联网视频 / 人类视频物体变化、任务意图、动作先验
仿真 / 合成数据长尾场景、安全边界、规模化探索
真实机器人轨迹接触动力学、控制闭环、执行误差
失败示范纠错、安全、恢复策略

13.3 分歧三:世界模型是“显式模块”,还是被 VLA 隐式吸收?

DeepMind、Meta、OpenAI 更倾向于把 world model 作为明确研究对象;RT、π0、OpenVLA、GR00T 这类机器人策略模型则可能把一部分世界知识隐式吸收到 VLA 或 action model 里。

未来可能出现两层结构:

高层:world model / embodied reasoning model
    - 预测后果
    - 规划任务
    - 做安全评估
    - 判断成功/失败
 
低层:robot action policy
    - 生成连续动作
    - 处理接触动力学
    - 闭环纠错

Gemini Robotics-ER 与 Gemini Robotics VLA 的分工已经体现了这个方向。


14. 对一级市场判断的价值

14.1 看创始团队,不只看 demo

具身智能公司的技术路线通常能从团队来源推断:

团队来源高概率技术路线
Berkeley / Stanford / Google Robotics真实机器人数据、模仿学习、VLA、通用操作
CMU / FAIR人类视频、多 embodiment、视觉探索、通用机器人 brain
NVIDIA / UT Austin / sim labs仿真、合成数据、数字孪生、humanoid policy
MIT control / planningTAMP、可验证规划、动力学控制、长时序任务
Meta / DeepMind世界模型、视频表征、RL、可交互环境
国内创新中心 / 机器人本体厂数据工厂、硬件闭环、场景落地、标准化采集

14.2 现在最稀缺的不是“又一个 VLA”,而是三件事

  1. 可规模化的数据闭环
    是否有真实机器人 fleet、远程遥操作、失败数据、自动标注、持续训练?

  2. 跨 embodiment action representation
    模型是否能适配不同机械臂、夹爪、移动底盘、人形机器人?还是只能在一个硬件上 demo?

  3. 可评测的泛化能力
    是否有 OOD 场景评测、长时序任务、失败恢复、安全边界、真实部署数据?

这些问题比“模型参数多少”“是否用了 Transformer”“demo 看起来是否丝滑”更重要。


15. 一句话总结

当前具身智能的主线,是:

Berkeley / Stanford / Google 的机器人学习谱系,把深度模仿学习和 VLA 推成主流;DeepMind / Meta / OpenAI 把世界模型从 RL 动力学扩展到视频和交互式环境;NVIDIA / UT Austin 等把仿真和合成数据变成规模化工具;中国则正在把硬件、数据采集、开源模型、仿真平台和产业标准组合成自己的具身数据基础设施。

真正决定未来路线胜负的,不是单个模型架构,而是:

人物与实验室谱系
→ 技术信仰
→ 数据采集方式
→ 训练范式
→ 硬件闭环
→ 评测体系
→ 公司化能力

这就是为什么研究“师承、流转、变迁”非常有价值:它能帮助提前判断一个团队到底会走 VLA、world model、sim-first、data-first、hardware-first,还是 cognitive architecture 这几条完全不同的路。


16. 参考来源

注:以下为本文涉及的主要公开论文、项目页、官方履历和公司信息来源。部分信息用于支持人物履历、项目规模、技术路线和机构流转判断。

Berkeley / Stanford / Google Robotics / PI

Google / DeepMind / VLA

世界模型

数据采集 / 开源机器人策略

仿真 / 合成数据 / Humanoid

MIT / Stanford / 空间智能

中国路线

## 关联页面