具身大模型 / 世界模型 / 具身数据路线的学术谱系与技术变迁

生成日期：2026-05-25
主题：从具身大模型、世界模型、具身数据采集与训练的角度，梳理海内外高校、学术流派、科研领军人物之间的师承、流转、变迁关系，并理解技术路线如何随人的传承和迁移而演变。

总览：五条技术传统的汇流
Berkeley / Stanford / Google Robotics / Physical Intelligence：机器人学习正统
Google / DeepMind：从 SayCan、PaLM-E、RT 到 Gemini Robotics
CMU / FAIR / Skild AI：从视觉探索到 omni-bodied robot brain
世界模型流派：DeepMind、Meta、OpenAI、Schmidhuber / Ha
具身数据采集路线：算法护城河转向数据 flywheel
仿真 / 合成数据路线：NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T
MIT / Stanford 空间智能与认知路线
Fei-Fei Li / Stanford / World Labs：从视觉理解到 spatial intelligence
中国路线：数据、硬件、仿真、开源体系并进
人—机构—技术路线图
技术路线如何随人的流动而演变
深层技术分歧
对一级市场判断的价值
一句话总结
参考来源

1. 总览：五条技术传统的汇流

当前具身智能的主流范式，本质上是五个学术传统的汇合：

谱系	早期问题意识	今天演化成什么
机器人学习 / 模仿学习 / 深度强化学习	机器人如何从示范、试错、轨迹优化中学技能	RT-1 / RT-2、Octo、OpenVLA、π0、Gemini Robotics、Skild Brain
世界模型 / model-based RL	智能体是否能先学习环境动力学，再在“想象”中规划	Dreamer、MuZero、Genie、V-JEPA2、Sora 类世界模拟器
视觉-语言-空间理解	机器如何理解物体、场景、3D 空间、物理常识	PaLM-E、VLA、spatial intelligence、具身推理模型
数据采集 / 跨机器人数据混合	机器人数据太贵、太碎、不可复用，如何规模化	RoboNet、BridgeData、Open X-Embodiment、DROID、ALOHA、UMI、RoboMIND
仿真 / 数字孪生 / 合成数据	真实机器人训练成本太高，能否用仿真补齐长尾	MimicGen、RoboCasa、ManiSkill、RoboVerse、NVIDIA GR00T

最重要的变化是：2018 年前，核心问题是“怎么让机器人学会一个任务”；2023 年后，核心问题变成“怎么训练一个可跨机器人、跨任务、跨场景泛化的具身基础模型”。

RT-1 / RT-2、Open X-Embodiment、Octo、OpenVLA、π0 / π0.5、GR00T 和 Gemini Robotics 都沿着这个方向推进。

2. Berkeley / Stanford / Google Robotics / Physical Intelligence：机器人学习正统

这条线是今天具身大模型最核心的人才与思想来源之一。

2.1 Andrew Ng → Pieter Abbeel → Berkeley Robot Learning / BAIR

Pieter Abbeel 的博士导师是 Andrew Ng，他在 Stanford 做的主题是 apprenticeship learning / reinforcement learning for robotic control，也就是通过示范和强化学习让机器人掌握控制策略。后来 Abbeel 到 UC Berkeley，成为 Berkeley Robot Learning Lab 和 BAIR 的关键人物之一，研究方向覆盖深度强化学习、模仿学习、迁移、元学习和机器人控制。

这条线的早期技术精神是：

机器人不应只靠手工控制器，而应从数据、示范、试错中学习控制策略。

这直接孕育了后来两类路线：

工业化机器人基础模型路线：Covariant，后来与 Amazon Robotics 发生人才和技术迁移；
学术开源路线：RoboNet、BridgeData、DROID、Octo、OpenVLA 等数据与模型体系。

Amazon 在 2024 年吸纳 Covariant 创始团队成员，并获得其机器人基础模型的非独占许可，这可以看作 Berkeley 机器人学习路线向大型工业机器人部署体系的一次重要迁移。

2.2 Vladlen Koltun → Sergey Levine → Berkeley / Google / Physical Intelligence

Sergey Levine 的博士导师是 Vladlen Koltun。Levine 早期做 guided policy search、轨迹优化、深度强化学习和端到端视觉-运动控制，之后在 Berkeley 和 Google Robotics 形成了非常强的“机器人学习 + 大规模数据 + 神经策略”路线。

这条线最关键的思想转变是：

从“优化单个任务的控制策略”转向“用大量多任务、多物体、多场景数据预训练通用机器人策略”。

RT-1 就是这个转折点之一。它把 Transformer 用于机器人动作序列建模，并强调从大规模、多任务机器人轨迹中吸收能力。RT-2 更进一步，把视觉语言模型和机器人动作统一到一个 VLA 框架里：模型既读图文，也输出机器人动作。

2.3 Chelsea Finn：Berkeley → Google → Stanford → Physical Intelligence

Chelsea Finn 的博士导师是 Pieter Abbeel 和 Sergey Levine。她后来在 Google、Stanford、Physical Intelligence 之间形成了一个极关键的桥梁角色。她的研究主题覆盖元学习、模仿学习、机器人泛化、视觉运动控制和大规模机器人数据。

她这条线的核心价值在于：把 Berkeley 的机器人学习思想、Google 的大规模模型与数据工程、Stanford 的基础研究体系和 Physical Intelligence 的机器人 foundation model 公司化路线串了起来。

Physical Intelligence 的创始团队包括 Chelsea Finn、Karol Hausman、Sergey Levine、Brian Ichter、Lachy Groom 等人，其中多位来自 Google Robotics / DeepMind / Stanford / Berkeley 网络。PI 的 π0、π0.5 和 FAST 体现了这条线的新形态：用预训练视觉语言模型、流匹配 / 扩散式动作生成、异构机器人数据和动作 tokenization 来训练通用机器人策略。

3. Google / DeepMind：从 SayCan、PaLM-E、RT 到 Gemini Robotics

Google Robotics / DeepMind 这条线的贡献，是把大语言模型、视觉语言模型和机器人控制真正合并起来。

3.1 技术递进

阶段	代表工作	核心思想
SayCan	PaLM-SayCan	LLM 负责高层任务分解，机器人技能模型判断动作可执行性
PaLM-E	Embodied multimodal language model	把视觉、语言、机器人状态放进同一个大模型
RT-1	Robotics Transformer	Transformer 直接建模机器人轨迹和动作
RT-2	Vision-Language-Action model	把网页图文知识迁移到机器人动作
Open X-Embodiment / RT-X	跨机器人数据混合	多机构、多机器人、多任务数据共同训练
Gemini Robotics	Embodied reasoning + VLA	高层空间推理、任务规划、工具调用与低层动作结合

SayCan 的关键不是“LLM 直接控制机器人”，而是让 LLM 提出候选高层动作，再由 affordance / skill model 判断哪些动作在当前环境中可执行。

PaLM-E 则进一步把语言、视觉和具身状态统一输入大模型。RT-2 把动作表示成类似语言 token 的形式，使互联网规模的视觉语言知识能迁移到机器人动作决策中。

Open X-Embodiment 是一个标志性拐点：它包含来自 21 个机构、22 种机器人、160,266 个任务的开放数据集，并训练 RT-1-X / RT-2-X 这样的跨 embodiment 模型。这个项目说明，机器人策略的泛化开始依赖“跨本体数据混合”，而不是单一实验室、单一机械臂、单一任务集。

Gemini Robotics 则把这条线推进到“具身推理模型”阶段。Gemini Robotics-ER 1.6 被定位为 embodied reasoning 模型，负责视觉-空间理解、任务规划、成功判断和工具调用；Gemini Robotics 1.5 则更接近把视觉信息和指令转成动作的 VLA 模型。

4. CMU / FAIR / Skild AI：从视觉探索到 omni-bodied robot brain

CMU 这条线和 Berkeley / Google 有明显区别。Berkeley / Google 更强调真实机器人数据、模仿学习、VLA；CMU / FAIR / Skild 更强调：

一个模型能否跨越不同身体形态、不同机器人平台、不同任务，成为“任何机器人都能用的大脑”。

Deepak Pathak 是 CMU Robotics Institute 的教授，研究横跨计算机视觉、机器学习和机器人。他与 Abhinav Gupta 创办 Skild AI，主张训练一个能泛化到多种硬件和任务的机器人基础模型。Skild 官方材料强调其模型面向不同形态机器人，使用人类数据、机器人数据和层级策略来提升泛化。

这条路线的技术气质是：

维度	Berkeley / Google / PI	CMU / FAIR / Skild
数据重心	真实机器人轨迹、多任务数据、跨机器人数据集	人类视频、仿真、真实机器人反馈、多 embodiment
核心问题	如何把 VLM 转成机器人动作	如何让一个大脑适配不同身体
训练范式	VLA、扩散 / flow action、动作 token	omni-bodied foundation model、层级控制
商业想象	通用操作机器人、家庭 / 工业操作	多形态机器人基础大脑

5. 世界模型流派：DeepMind、Meta、OpenAI、Schmidhuber / Ha

“世界模型”在今天被用得很泛，至少有四种含义。混在一起看会误判技术路线。

5.1 Ha / Schmidhuber：早期 neural world model

2018 年的 World Models 提出：智能体可以先学习环境的压缩时空表征，然后在模型内部“梦境”中训练策略，再迁移到真实环境。这是现代世界模型叙事的重要早期版本。

这条线的问题意识是：

智能体不必每次都在真实环境中试错，它可以在内部模型中想象未来。

5.2 DeepMind：MuZero、Dreamer、Genie

DeepMind 的世界模型更偏向 model-based RL 和可交互环境建模。

MuZero 学到的是一个用于规划的隐式模型：它不需要预先知道游戏规则，而是学习 reward、value、policy 相关的动态表征，并结合树搜索实现 Atari、Go、Chess、Shogi 的高性能。

Dreamer 系列则学习环境动力学，在 latent imagination 中训练策略；DreamerV3 在 150 多个任务上使用固定超参数，并展示了从像素和稀疏奖励中学习 Minecraft diamond 的能力。

Genie 则是另一条方向：从大量视频中学习可交互、可动作控制的生成式环境。Genie 1 强调从未标注互联网视频中学习 latent actions 和交互环境；Genie 2 / 3 进一步走向可交互 3D 世界和通用世界模型。

5.3 Meta / LeCun：JEPA、V-JEPA、V-JEPA2

Yann LeCun 的世界模型路线与生成式视频模型不同。他长期强调预测表征，而不是预测像素。I-JEPA、V-JEPA 和 V-JEPA2 的核心是：在抽象 latent space 中预测被遮挡或未来部分，从而形成对外部世界的内部模型。

V-JEPA2 尤其值得注意，因为它把大规模视频预训练和少量机器人数据结合起来。官方材料称 V-JEPA2 使用 100 万小时视频和少量机器人数据进行训练，并通过 V-JEPA2-AC 在 Franka 机器人上实现目标条件的抓取 / 放置等任务。这说明 Meta 的路线正在从“视觉表征世界模型”向“可服务机器人控制的世界模型”靠拢。

5.4 OpenAI / Sora 类路线：视频生成作为物理世界模拟

OpenAI 对 Sora 的定位是“教 AI 理解并模拟运动中的物理世界”，目标是训练能解决真实世界交互问题的模型。这条线和 Dreamer / MuZero 不同，它不是先从 RL 控制切入，而是从大规模视觉生成模型切入，把视频生成能力视为世界建模能力的一种表现。

这类路线对机器人真正有用，还需要补上三个环节：

动作可控性：模型不仅生成视频，还要理解机器人动作如何改变状态；
状态可验证性：世界模型预测的状态要能用于规划和安全评估；
闭环控制：模型必须能支持机器人在真实环境中实时纠错。

6. 具身数据采集路线：算法护城河转向数据 flywheel

具身大模型和语言大模型最大的不同是：机器人数据极其昂贵、稀疏、异构、带硬件依赖。

所以这个领域的关键演化不是单纯模型变大，而是数据体系从“实验室小数据”变成“跨机构、跨本体、跨场景的数据基础设施”。

6.1 Berkeley / Stanford / Google 数据线

RoboNet 是早期重要节点，包含来自多种机器人和环境的 1500 万视频帧，目标是让机器人从跨机器人数据中学习可复用的视觉运动能力。

BridgeData V2 则进一步提供 60,096 条轨迹，覆盖 24 个环境，并包含语言和目标图像等标注。

DROID 是近年最重要的真实机器人数据集之一，包含约 76,000 条示范、350 小时数据、564 个场景、84 个任务，由 50 名数据采集者跨北美、亚洲和欧洲收集。它的意义不只是规模，而是说明机器人数据采集开始从单实验室走向分布式、多场景、多采集者。

ALOHA / ACT 则展示了另一条低成本路线：用相对便宜的双臂遥操作硬件收集高质量示范，并用 Action Chunking Transformer 学习长时序动作块。Mobile ALOHA 和后续系统进一步放大了这条路线对具身数据采集的影响。

6.2 Open X-Embodiment：从“我的机器人数据”到“全行业数据混合”

Open X-Embodiment 的意义非常大：它把不同实验室、不同机器人平台的数据合并为一个可训练通用策略的数据池。

这个项目证明，跨机器人数据混合可以产生正迁移，也让 RT-X、Octo、OpenVLA 这类模型有了共同的基础设施。

Octo 是典型代表：它是一个开源 generalist robot policy，基于 Open X-Embodiment 的大规模数据预训练，并允许用户用少量数据微调到新任务。

OpenVLA 则把开源 7B VLA 模型和约 970k 条真实机器人示范结合起来，试图打破此前 VLA 模型闭源、数据不可得的问题。

6.3 Diffusion Policy / UMI：动作生成范式的变化

Diffusion Policy 是操作机器人路线中的关键论文。它把条件扩散模型用于 visuomotor policy，在多个任务和基准中相对传统方法取得显著提升。

它的重要性在于：动作不再只是简单回归，而可以被看作一个多模态轨迹分布的生成问题。

UMI 则解决另一个瓶颈：如何在真实世界中低成本采集人类示范，并把这些示范迁移到机器人策略。

UMI 用手持夹爪和 GoPro 这类低成本硬件采集 in-the-wild 示范，试图让真实世界数据采集更便宜、更广泛。

7. 仿真 / 合成数据路线：NVIDIA、UT Austin、RoboCasa、MimicGen、GR00T

真实数据太贵，所以仿真与合成数据成为另一个强势流派。

MimicGen 通过少量人类示范自动生成大量机器人操作数据，在多个长时序、高精度任务中生成约 50K 条示范。

RoboCasa 则面向家庭厨房等复杂场景，结合 LLM、text-to-3D、text-to-image 等工具生成大量仿真任务和场景。

ManiSkill2 提供 20 个操作任务族、2000 多个物体模型和 400 万以上示范帧，是仿真基准和数据生成的重要基础设施。

NVIDIA GR00T 是仿真、合成数据、人类视频和真实机器人轨迹融合的代表路线。

GR00T N1 被描述为通用 humanoid robot foundation model，使用 egocentric human videos、真实 / 仿真机器人轨迹和合成数据；其架构包含类似“System 2”的视觉语言模块和类似“System 1”的扩散 Transformer 动作模块。

这条路线的技术判断是：

humanoid 和通用操作机器人不可能完全靠真实数据堆出来，必须用仿真、数字孪生、合成数据和真实数据闭环补齐长尾。

8. MIT / Stanford 空间智能与认知路线

这条线不一定直接训练最大 VLA，但它对“世界模型”和“空间智能”的概念影响很深。

8.1 Joshua Tenenbaum / MIT：认知科学、概率程序、物理常识

Joshua Tenenbaum 长期研究计算认知科学，目标是反向工程人类智能，尤其关注人类如何用少量数据理解物体、场景、因果和物理。

MIT 这条线影响了很多 object-centric、neuro-symbolic、intuitive physics、scene understanding 的研究。

Jiajun Wu 是这条线的重要传承者之一。他本科在清华，博士在 MIT，导师是 Bill Freeman 和 Joshua Tenenbaum，后来到 Stanford 任教，研究横跨计算机视觉、机器学习、机器人和计算认知科学。

这条路线的底层信念是：

智能体不只是拟合图像和动作，还要形成关于物体、空间、因果、物理规律的结构化表征。

8.2 Russ Tedrake / MIT：控制、动力学、规划和机器人操作

Russ Tedrake 代表的是 MIT 的控制与动力系统传统。他的机器人研究强调自然动力学、控制、规划、感知-控制闭环和机器学习的结合。

OpenVLA 中也出现了 MIT / Tedrake 系的参与，说明严谨控制与大模型路线正在发生交叉。

8.3 Leslie Kaelbling / Tomás Lozano-Pérez：TAMP 传统

MIT 的 task and motion planning 传统强调把离散任务规划和连续运动规划结合起来。

TAMP 在今天仍然重要，因为 VLA 可以提出高层动作，但长时序任务仍需要可验证规划、约束满足和失败恢复。

这解释了为什么 Gemini Robotics-ER 这类“高层 embodied reasoning”模型会重新重视规划、任务分解、成功判断和工具调用。VLA 负责动作，ER 模型负责空间推理和任务结构。

9. Fei-Fei Li / Stanford / World Labs：从视觉理解到 spatial intelligence

Fei-Fei Li 的路线从大规模视觉识别、视觉理解、场景理解一路延伸到 spatial intelligence。

她曾任 Stanford AI Lab director，并在 Google Cloud AI / ML 担任 Chief Scientist；近期 World Labs 明确聚焦 spatial intelligence，即让 AI 模型感知、生成、推理并与 3D 世界交互。

这条线与机器人学习的区别是：

机器人学习路线	Spatial intelligence 路线
先问：机器人如何执行动作？	先问：模型如何理解三维世界？
数据核心是 robot trajectories	数据核心是图像、视频、3D、场景和空间结构
输出是动作策略	输出是可交互、可推理的世界表征
典型代表：RT、π0、OpenVLA	典型代表：World Labs、3D world models、空间生成模型

长期看，这两条线会合并：没有空间理解的 VLA 很难泛化；没有动作闭环的空间模型也很难成为机器人智能。

10. 中国路线：数据、硬件、仿真、开源体系并进

国内的具身智能路线有几个明显特征：

硬件供应链和人形机器人产业链更近；
数据采集平台化、标准化倾向更强；
开源数据集、仿真平台、RDT / VLA 模型快速补位；
部分核心学术人物具有中美双重学术迁移背景。

10.1 朱松纯 / BIGAI / 北大：认知架构、视觉常识、具身智能

朱松纯长期在 UCLA，后回国创立北京通用人工智能研究院，并在北大、清华担任重要学术角色。其研究长期强调视觉常识、随机文法、认知架构、物理与社会智能等问题。

黄思远是 BIGAI 具身智能方向的重要人物之一。他的公开资料显示，他博士毕业于 UCLA，导师是朱松纯，之后在 BIGAI 做 embodied AI 和 robotics 相关研究。

这条路线不同于纯 VLA 工程化路线，更偏向：

认知架构 + 物理常识 + 任务理解 + 场景语义 + 具身交互。

它与 MIT / Tenenbaum 的计算认知传统、UCLA / Zhu 的视觉常识传统有较强思想亲缘性。

10.2 北大 / Hao Dong / RoboVerse：仿真、数据、benchmark、机器人 scaling law

郝东是北京大学计算机学院 / CFCS 的长聘副教授，研究方向包括 embodied AI、大模型、强化学习、机器人和开源系统。他也参与了 RoboVerse 等面向机器人仿真、合成数据和统一 benchmark 的工作。

RoboVerse 的意义在于，它不是单一数据集，而是一个覆盖仿真平台、合成数据和统一评测的框架，目标是服务 imitation learning、reinforcement learning、world model 和 sim-to-real 等多类算法。

10.3 清华 / RDT-1B：Diffusion Transformer 与双臂操作

RDT-1B 是国内值得重点跟踪的路线之一。

它把 Robotics Diffusion Transformer 用于双臂操作，规模达到 1.2B 参数，并强调统一动作空间、多机器人数据预训练和少量真实 ALOHA 数据微调。

其项目页称模型在 46 个数据集、100 万以上 episodes 上预训练，并在 6000 多个 ALOHA episodes 上微调。

这条线的特点是：

把扩散模型的多模态动作生成能力、Transformer 的规模化能力、双臂操作数据和国产开源模型体系结合起来。

它更接近 Physical Intelligence π0、Diffusion Policy、OpenVLA 的中国版交汇路线。

10.4 上海 AI Lab / InternRobotics / 庞江淼：开源基础设施路线

庞江淼是上海 AI Lab Embodied AI Center 的负责人之一，公开资料显示其经历包括浙江大学博士、香港中文大学博士后、上海 AI Lab 研究科学家等。

上海 AI Lab 的 InternRobotics / OpenRobotLab 明确强调建设 embodied AI 的开放基础设施。

这条路线的关键词是：

开源模型 + 数据集 + 仿真环境 + benchmark + 工程基础设施。

它和国内大模型开源生态有相似逻辑：先通过开放基础设施扩大研究者和开发者网络，再在垂直场景中形成模型和数据闭环。

10.5 RoboMIND / 北京人形机器人创新中心 / AgiBot World：产业级数据平台化

RoboMIND 是国内非常值得关注的数据集路线。

RoboMIND v3 官方信息显示其包含 107k 条轨迹、479 个任务、96 类物体、4 类 embodiment，并包含 5000 条失败示范和 Isaac Sim 数字孪生环境。

项目参与方包括北京人形机器人创新中心、北大、智源等机构。

北京人形机器人创新中心成立于 2023 年，目标是加快人形机器人关键技术供给和产业化。

国内还在推进人形机器人数据集相关国家标准项目，参与单位包括清华、上海 AI Lab、北京 / 上海 / 浙江等创新中心和多家机器人企业。

AgiBot World 则代表产业公司数据开放路线。其资料强调围绕大模型、数据集、工具链等形成开源生态，目标是提升具身智能数据的规模、多样性和质量。

11. 人—机构—技术路线图

可以把当前格局压缩成下面这张文字谱系图：

Andrew Ng / Stanford IRL
        ↓
Pieter Abbeel / Berkeley Robot Learning / BAIR
        ↓
Chelsea Finn ─────────────┐
        ↓                 │
Stanford IRIS / Google     │
        ↓                 │
Physical Intelligence π0   │
                          │
Vladlen Koltun ─→ Sergey Levine / Berkeley + Google Robotics
                          │
                          ├─ RT-1 / RT-2 / Open X / Octo / OpenVLA
                          └─ Physical Intelligence / π0 / π0.5 / FAST
 
 
CMU + FAIR
Deepak Pathak + Abhinav Gupta
        ↓
Skild AI：omni-bodied robot brain
 
 
MIT cognitive / planning / control
Tenenbaum / Kaelbling / Lozano-Pérez / Tedrake
        ↓
world model, TAMP, intuitive physics, structured scene reasoning
        ↓
Jiajun Wu / Stanford physical scene understanding
 
 
Meta / LeCun / FAIR
        ↓
JEPA / V-JEPA / V-JEPA2：latent predictive world model
 
 
DeepMind
        ↓
MuZero / Dreamer / Genie / Gemini Robotics
 
 
UCLA → BIGAI / 北大 / 清华
Song-Chun Zhu → Siyuan Huang / BIGAI cognitive embodied AI
 
 
浙江大学 → CUHK → 上海 AI Lab
Jiangmiao Pang → InternRobotics / OpenRobotLab
 
 
清华 / 北大 / 智源 / 北京人形机器人创新中心 / 上海 AI Lab
        ↓
RDT-1B / RoboMIND / RoboVerse / 国内具身数据与开源基础设施

这张图背后的核心逻辑是：算法路线不是抽象演化的，它跟人在哪里读博、在哪个实验室做 postdoc、在哪家公司做过大模型 / 机器人项目、后来带走哪些学生和工程团队高度相关。

12. 技术路线如何随人的流动而演变

12.1 Berkeley → Google → PI：从 RL 到大规模 imitation / VLA

Berkeley 早期强在深度强化学习、模仿学习、视觉运动控制和元学习。

Google Robotics 提供了更大规模的数据、模型训练和机器人平台。

到了 Physical Intelligence，这套能力被公司化为“机器人 foundation model + 多 embodiment 数据 + flow / diffusion action policy”。

因此，这条线的演化是：

轨迹优化 / policy search
→ deep RL / imitation learning
→ visual foresight / meta-learning
→ Robotics Transformer
→ VLA
→ flow / diffusion action foundation model

12.2 DeepMind / Meta：从环境动力学到通用世界模型

DeepMind 的世界模型一开始更偏 RL：MuZero 和 Dreamer 关心如何用 learned model 支持规划和策略学习。

Genie 则转向可交互环境生成。

Meta 的 JEPA 路线更强调非生成式表征预测，即学习世界的 latent structure，而不是逐像素生成未来。

这说明“世界模型”正在分裂成三种工程路线：

类型	代表	主要用途
RL world model	Dreamer、MuZero	在 latent imagination 中学习控制策略
生成式 world simulator	Genie、Sora	生成可交互或近似可交互环境
表征预测 world model	JEPA、V-JEPA2	学习物理世界的抽象状态和变化规律

12.3 Stanford / MIT / World Labs：从 2D 视觉到 3D 空间智能

Fei-Fei Li、Jiajun Wu、Tenenbaum、Tedrake 等人的路线，强调视觉、3D、物理、场景和空间结构。

它不是直接从“机器人动作数据”开始，而是从“世界如何被表征”开始。

未来这条线与 VLA 的合流会非常关键。原因很简单：机器人泛化需要的不只是“见过类似任务”，还需要理解：

物体之间的空间关系；
支撑、遮挡、碰撞、可达性；
容器、工具、关节、材质；
长时序任务中的状态变化；
人类语言中的隐含目标和物理约束。

12.4 中国路线：从论文复现到“数据—硬件—平台—标准”一体化

中国具身智能的优势不一定在最早提出某个算法范式，而在于：

机器人硬件和供应链密度高；
人形机器人、双臂、移动操作平台部署快；
数据采集可以组织化、平台化、标准化；
开源模型和数据集可以迅速形成生态。

RoboMIND、RDT-1B、RoboVerse、InternRobotics、AgiBot World 这些项目，说明国内正在从“做单点模型”转向“做数据、仿真、模型、评测、工具链”。

13. 深层技术分歧

13.1 分歧一：动作是 token、连续轨迹，还是扩散 / flow 生成？

RT-2 把动作表示成文本 token，便于和 VLM 统一；Diffusion Policy、π0、RDT-1B、GR00T 则更偏向连续动作分布生成，适合处理多模态、精细操作和长动作块。

判断：

高层决策会越来越 token 化，低层控制会越来越 diffusion / flow / continuous action generation 化。

13.2 分歧二：数据应该来自真实机器人，还是人类视频 / 仿真 / 合成数据？

PI、OpenVLA、DROID、Open X 更强调真实机器人数据；Skild、GR00T、Genie、V-JEPA2 更积极使用人类视频、仿真、互联网视频或合成数据。

未来不会二选一，而是形成分层：

数据类型	最适合学什么
互联网图文	语义、物体、常识、语言指令
互联网视频 / 人类视频	物体变化、任务意图、动作先验
仿真 / 合成数据	长尾场景、安全边界、规模化探索
真实机器人轨迹	接触动力学、控制闭环、执行误差
失败示范	纠错、安全、恢复策略

13.3 分歧三：世界模型是“显式模块”，还是被 VLA 隐式吸收？

DeepMind、Meta、OpenAI 更倾向于把 world model 作为明确研究对象；RT、π0、OpenVLA、GR00T 这类机器人策略模型则可能把一部分世界知识隐式吸收到 VLA 或 action model 里。

未来可能出现两层结构：

高层：world model / embodied reasoning model
    - 预测后果
    - 规划任务
    - 做安全评估
    - 判断成功/失败
 
低层：robot action policy
    - 生成连续动作
    - 处理接触动力学
    - 闭环纠错

Gemini Robotics-ER 与 Gemini Robotics VLA 的分工已经体现了这个方向。

14. 对一级市场判断的价值

14.1 看创始团队，不只看 demo

具身智能公司的技术路线通常能从团队来源推断：

团队来源	高概率技术路线
Berkeley / Stanford / Google Robotics	真实机器人数据、模仿学习、VLA、通用操作
CMU / FAIR	人类视频、多 embodiment、视觉探索、通用机器人 brain
NVIDIA / UT Austin / sim labs	仿真、合成数据、数字孪生、humanoid policy
MIT control / planning	TAMP、可验证规划、动力学控制、长时序任务
Meta / DeepMind	世界模型、视频表征、RL、可交互环境
国内创新中心 / 机器人本体厂	数据工厂、硬件闭环、场景落地、标准化采集

14.2 现在最稀缺的不是“又一个 VLA”，而是三件事

可规模化的数据闭环
是否有真实机器人 fleet、远程遥操作、失败数据、自动标注、持续训练？
跨 embodiment action representation
模型是否能适配不同机械臂、夹爪、移动底盘、人形机器人？还是只能在一个硬件上 demo？
可评测的泛化能力
是否有 OOD 场景评测、长时序任务、失败恢复、安全边界、真实部署数据？

这些问题比“模型参数多少”“是否用了 Transformer”“demo 看起来是否丝滑”更重要。

15. 一句话总结

当前具身智能的主线，是：

Berkeley / Stanford / Google 的机器人学习谱系，把深度模仿学习和 VLA 推成主流；DeepMind / Meta / OpenAI 把世界模型从 RL 动力学扩展到视频和交互式环境；NVIDIA / UT Austin 等把仿真和合成数据变成规模化工具；中国则正在把硬件、数据采集、开源模型、仿真平台和产业标准组合成自己的具身数据基础设施。

真正决定未来路线胜负的，不是单个模型架构，而是：

人物与实验室谱系
→ 技术信仰
→ 数据采集方式
→ 训练范式
→ 硬件闭环
→ 评测体系
→ 公司化能力

这就是为什么研究“师承、流转、变迁”非常有价值：它能帮助提前判断一个团队到底会走 VLA、world model、sim-first、data-first、hardware-first，还是 cognitive architecture 这几条完全不同的路。

16. 参考来源

注：以下为本文涉及的主要公开论文、项目页、官方履历和公司信息来源。部分信息用于支持人物履历、项目规模、技术路线和机构流转判断。

## 关联页面

具身智能研究

探索

具身大模型_世界模型_具身数据_学术谱系研究