具身大模型技术分类框架|截至 2026-05-24
一、总框架:三层分类,而不是单一 taxonomy
对“具身大模型”的分类可以拆成三层:
| 层级 | 分类对象 | 解决的问题 | 为什么必须单独看 |
|---|---|---|---|
| 第一层:具身大脑路线 | 模型/系统如何从感知、语言、状态走到行动 | “大脑怎么做决策” | 决定泛化能力、实时性、解释性、控制稳定性 |
| 第二层:数据与训练路线 | 数据从哪里来、如何训练 | “大脑靠什么长出来” | 当前最大瓶颈之一是高质量机器人数据,而不是单纯参数规模 |
| 第三层:横向技术标签 | 动作表示、控制频率、传感器、本体范围、部署成熟度 | “这套系统能不能落地” | 很多公司同叫 VLA,但落地能力差异主要藏在这些标签里 |
这个划分和近两年的主流 review 是一致的:VLA review 重点讨论模型架构、训练目标、机器人平台、数据采集、数据集、增强和评估;高效 VLA survey 则把模型设计、训练效率和数据采集效率列为核心问题。
来源:VLA Survey Website
二、第一层:具身大脑路线主分类
2.1 总览表
| 大类 | 核心判别标准 | 典型小类 | 代表公司/项目 |
|---|---|---|---|
| A. 规划-技能编排型大脑 | 大模型主要负责理解、推理、规划;低层动作由技能库、控制器或传统机器人栈执行 | LLM/VLM planner、affordance grounding、code-as-policy、技能调用 | Google PaLM-SayCan / Code as Policies / Gemini Robotics-ER、Sanctuary AI Carbon / LBM、Galbot DexGraspVLA、Boston Dynamics + Gemini Robotics-ER |
| B. 策略中心型端到端 VLA | 模型直接把视觉/语言/状态映射为动作,核心是行为策略学习 | 自回归动作 token、连续动作生成、flow matching、latent action、action chunking | Google RT-2 / RT-X、OpenVLA、Physical Intelligence π0/π0.5、Hugging Face SmolVLA / LeRobot、AgiBot GO-1、Galbot GraspVLA |
| C. 快慢双系统 / 分层 VLA | 显式区分慢速语义推理系统和快速运动控制系统 | System 2 reasoning + System 1 motor policy,甚至 System 0 whole-body control | Figure Helix / Helix 02、NVIDIA GR00T、Google Gemini Robotics 1.5 + Robotics-ER、Skild Brain、Hume 类学术路线 |
| D. 世界模型中心型大脑 | 核心资产是预测未来、生成世界、模拟动作后果,用于规划、训练或评估 | video world model、physics world model、MPC、synthetic rollout、closed-loop simulator | NVIDIA Cosmos、1X World Model、Covariant RFM-1、AgiBot Genie / GigaBrain、Skild + Cosmos / Isaac |
| E. 泛形态 / 跨本体“一脑多体”路线 | 重点是同一模型跨机械臂、人形、移动平台、四足等多种本体迁移 | embodiment-conditioned policy、latent action、动作空间标准化、高低层解耦 | Skild Brain、Google Open X / RT-X、NVIDIA GR00T、Physical Intelligence π0、AgiBot World / GO-1、OpenVLA |
注意:现实中很多公司是混合路线。这里的“主归类”按其公开资料里最关键的技术差异点归类,而不是说它完全不使用其他模块。
A. 规划-技能编排型大脑
定义
学术表述:
这是一个层级式认知-控制架构。LLM/VLM 作为高层策略或任务规划器,基于语言、视觉、环境状态做任务分解、可行性评估、工具调用或代码生成;低层动作由 affordance model、skill library、motion planner、grasp planner、visual servoing 或控制器执行。Google PaLM-SayCan 的典型做法是让语言模型评估“有用性”,让 affordance model 评估“可执行性”,再选择当前最合适的技能执行;Code as Policies 则让语言模型生成可执行的机器人策略代码。
来源:PaLM-SayCan,Code as Policies
人话:
大模型像“经理”或“调度员”,负责想清楚“先做什么、后做什么、调用哪个技能”;真正拧关节、抓物体、走路,交给下面的小模型或控制器。
优点
| 维度 | 解释 |
|---|---|
| 可解释性强 | 中间步骤、调用的技能和失败点相对可见,便于 debug 和安全审查。 |
| 数据效率高 | 不需要从零学会所有低层动作,可以复用传统机器人技能栈。 |
| 适合长程任务 | 多步骤任务、工具调用、空间推理、任务分解天然适合 LLM/VLM。 |
| 工程落地友好 | 在仓储、零售、服务等结构化场景里,可以把已有控制器和新大模型拼起来。 |
缺点
| 维度 | 解释 |
|---|---|
| 能力被技能库上限限制 | 规划器再聪明,也只能调用已有技能;没有技能就无法做。 |
| 语义-物理断裂 | LLM 可能给出语义合理但物理不可行的计划,必须靠 affordance grounding 抑制。 |
| 误差级联 | 高层计划错一步,低层再稳定也会执行错误目标。 |
| 接触丰富任务弱 | 洗衣、整理、开复杂包装、双手协作等连续接触任务很难只靠技能拼接。 |
代表公司 / 项目
| 公司 / 项目 | 为什么归入该类 |
|---|---|
| Google PaLM-SayCan / Code as Policies | 典型 LLM 高层规划 + affordance / skill grounding;Code as Policies 用 LLM 生成机器人策略代码。来源:PaLM-SayCan,Code as Policies |
| Google Gemini Robotics-ER | Robotics-ER 是面向物理世界的 embodied reasoning model,强调空间推理、物体检测、轨迹/抓取预测、多步规划等能力;它常与 VLA 控制模型配合。来源:Gemini Robotics |
| Galbot / DexGraspVLA | DexGraspVLA 明确是层级框架:预训练 VLM 做高层 planner,低层控制器学习闭环策略。来源:DexGraspVLA |
| Sanctuary AI Carbon / LBM | Sanctuary 把 Phoenix 机器人和 Carbon AI control system 作为通用技术,并与 Microsoft 合作探索 grounded in physical world 的 Large Behavior Models。来源:Sanctuary AI Technology |
| Boston Dynamics + Google DeepMind | Google 2026 年公开提到 Gemini Robotics-ER 与 Boston Dynamics 的合作,用 embodied reasoning 能力处理机器人任务。来源:Google DeepMind Blog |
B. 策略中心型端到端 VLA
定义
学术表述:
这是以行为策略为核心的端到端或近端到端模型。输入包括图像、语言指令、机器人状态,有时也包括多相机、多模态传感;输出是动作 token、连续动作、动作 chunk、末端执行器轨迹、关节目标或 latent action。它本质上把机器人控制问题转化为大规模条件序列建模或条件生成建模问题。RT-2 把 robot actions 表达为文本 token,使 VLM 经过机器人轨迹微调后成为 VLA;OpenVLA 则在互联网视觉语言数据和 97 万条真实机器人示范上训练开源 VLA。
来源:RT-2 Paper,OpenVLA
人话:
这条路线不是让大模型先写计划再调技能,而是让模型“看见画面、读懂指令,然后直接给机器人下一步动作”。
B1. 自回归动作 token 路线
| 说明 | 内容 |
|---|---|
| 技术特点 | 把连续动作离散化或 token 化,让模型像生成文本一样生成动作序列。 |
| 优势 | 最容易继承 LLM/VLM 的 scaling law、预训练、指令微调和 token 生态。 |
| 劣势 | 离散化会损失控制精度;自回归生成有延迟;高频连续控制和灵巧手任务会吃亏。 |
| 代表项目 | Google RT-2 / RT-X、OpenVLA、SmolVLA、部分 action-tokenization VLA。 |
RT-2 的关键在于从 web-scale VLM 出发,再用机器人数据把视觉-语言模型转成视觉-语言-动作模型;Open X-Embodiment / RT-X 则把 22 种机器人本体、100 万级 episode、500 多项技能汇总到跨本体数据集里,推动 RT-1-X、RT-2-X 的跨平台迁移。
来源:RT-2 Blog,Open X-Embodiment / RT-X
B2. 连续动作生成路线:Diffusion / Flow Matching / Action Chunking
| 说明 | 内容 |
|---|---|
| 技术特点 | 直接建模连续动作分布,常用 diffusion、flow matching、denoising transformer 或 action chunk。 |
| 优势 | 更适合高维连续动作、双臂协作、灵巧操作、接触丰富任务。 |
| 劣势 | 推理成本和实时性压力更大;安全稳定性验证更复杂;对高质量动作数据依赖强。 |
| 代表项目 | Physical Intelligence π0 / π0.5、Diffusion Policy、ALOHA Unleashed、Galbot GraspVLA、部分 NVIDIA GR00T action expert。 |
π0 是典型代表:Physical Intelligence 把它描述为基于预训练 VLM 的 Vision-Language-Action flow model,并在单臂、双臂、移动操作平台等多种机器人上训练;π0.5 进一步强调 open-world generalization,在新家居环境中完成厨房、卧室等任务。Diffusion Policy 则从方法层面证明,条件 diffusion 对多模态动作分布、高维动作空间和训练稳定性有优势。
来源:π0 Paper,π0 Blog,Diffusion Policy
B3. Latent action / action chunk / 混合动作表示
| 说明 | 内容 |
|---|---|
| 技术特点 | 不直接输出低层动作,而是输出 latent action、动作块、子目标或轨迹片段,再由低层模块解码。 |
| 优势 | 缓解不同机器人动作空间不一致问题;提升长程动作连贯性。 |
| 劣势 | latent action 的可解释性较弱;跨平台 retargeting 难度高。 |
| 代表项目 | AgiBot GO-1、ACT、Mobile ALOHA、部分 OpenVLA / LeRobot 系列策略。 |
AgiBot World 论文提出 GO-1 generalist policy,并使用 latent action representations;其数据平台覆盖 100 万级轨迹、217 个任务、五类场景,并通过 human-in-loop verification 保证数据质量。ACT / action chunking 在低成本 ALOHA 系统中展示了用少量示范学习双臂任务的能力,Mobile ALOHA 则把 action chunking 和全身移动双臂操作结合起来。
来源:AgiBot World,ALOHA,Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
代表公司 / 项目
| 公司 / 项目 | 归类依据 |
|---|---|
| Google DeepMind RT-2 / RT-X | VLM 经机器人数据微调后直接输出动作 token;Open X-Embodiment 支持跨本体训练。来源:RT-2,Open X-Embodiment |
| OpenVLA | 7B 开源 VLA,使用互联网视觉语言数据和 97 万条真实机器人示范训练。来源:OpenVLA |
| Physical Intelligence π0 / π0.5 | 基于 VLM 的 flow-matching VLA,主打通用机器人 foundation model 和开放世界泛化。来源:π0,π0.5 |
| Hugging Face LeRobot / SmolVLA | LeRobot 提供 imitation learning、RL、VLA 策略实现;SmolVLA 是轻量开源 VLA,可在消费级硬件上运行。来源:LeRobot GitHub |
| AgiBot GO-1 | 在 AgiBot World 大规模真实机器人数据上训练,使用 latent action 表示。来源:AgiBot World |
| Galbot GraspVLA / GroceryVLA / TrackVLA | 公开资料显示 Galbot 形成了 GraspVLA、GroceryVLA、TrackVLA 等场景化 VLA 模型;GraspVLA 使用大规模合成动作数据和 flow-matching action generation。来源:GraspVLA |
C. 快慢双系统 / 分层 VLA
定义
学术表述:
该路线用 temporal abstraction 明确拆分高层语义推理和低层实时控制:慢系统负责 scene understanding、language grounding、goal reasoning、behavior sequencing;快系统负责 visuomotor policy、continuous action generation、joint target 或 torque-level control。Figure Helix 官方明确称其为 “System 1, System 2” VLA;Helix 02 又增加 System 0,用 1 kHz 层处理平衡、接触和全身协调。
来源:Figure Helix,Figure Helix 02
人话:
这条路线像“脑子慢慢想,身体快速反应”。大模型不需要每 5 毫秒重新思考“苹果是什么”,低层控制器也不需要理解完整任务语义。
优点
| 维度 | 解释 |
|---|---|
| 兼顾泛化和实时性 | 慢系统保留 VLM/LLM 的语义泛化,快系统满足机器人控制的高频要求。 |
| 适合人形机器人 | 人形机器人需要同时处理语言、视觉、双手、躯干、平衡、接触和移动。 |
| 更接近生物控制结构 | 高层任务规划、中层动作策略、底层反射/稳定控制分工清晰。 |
| 工程扩展性较好 | 可以单独优化低层控制频率、稳定性和安全边界。 |
缺点
| 维度 | 解释 |
|---|---|
| 系统复杂度高 | 高低层通信、训练对齐、故障诊断和安全验证都更难。 |
| 端到端 credit assignment 难 | 任务失败时,难判断是语义理解、动作策略还是低层控制问题。 |
| 需要极强工程栈 | 涉及硬件、本体动力学、感知、VLA、控制、数据闭环,不适合轻资产团队。 |
| 公开 demo 容易高估能力 | 双系统 demo 看起来“聪明”,但真实部署要看 intervention rate、长程成功率和异常恢复。 |
代表公司 / 项目
| 公司 / 项目 | 归类依据 |
|---|---|
| Figure Helix / Helix 02 | Helix 是明确的 System 1 / System 2 VLA;Helix 02 扩展为 System 2 慢速推理、System 1 200 Hz 全身 joint target、System 0 1 kHz 平衡/接触/协调。来源:Helix,Helix 02 |
| NVIDIA GR00T N1 / N1.7 | GR00T N1 采用 dual-system:System 2 VLM 理解环境和指令,System 1 diffusion transformer 实时生成流畅动作;训练数据包括真实机器人、人类视频和合成数据。来源:GR00T N1 Paper,NVIDIA GR00T |
| Google Gemini Robotics 1.5 + Robotics-ER | Robotics-ER 负责物理世界推理和多步计划,Gemini Robotics VLA 把视觉和指令转成动作;Google 2025 博文强调 Robotics‑ER 与 VLA 结合以提升长程任务能力。来源:Gemini Robotics 1.5 |
| Skild Brain | Skild 公开称其架构是层级式:低频高层 manipulation/navigation policy 下发命令,高频低层 policy 转成关节角或力矩,并强调跨本体泛化。来源:Skild Brain |
| Hume 类学术路线 | 2025 年 Hume 提出带 value-guided System-2 thinking 与 cascaded action denoising 的双系统 VLA,用低频 System 2 选择动作候选,高频 System 1 生成流畅动作。来源:Hume |
补充:C和A类的差异:
它们都可以归为分层式语义-动作大脑,关键差异在于:低层执行层到底是什么。
| 维度 | PaLM-SayCan / Code as Policies | Helix / Helix 02 |
|---|---|---|
| 高层模块 | LLM / VLM planner | S2 VLM / semantic latent generator |
| 中间接口 | 显式技能、自然语言动作、代码、waypoint、API 调用 | 连续 latent vector / behavioral intent |
| 执行层 | 技能库、affordance model、motion planner、控制器、代码策略 | 学习得到的 visuomotor policy;Helix 02 进一步接 learned whole-body controller |
| 动作形式 | 通常是离散技能调用、子目标、轨迹、控制 primitive | 高频连续动作、joint targets、甚至 pixels-to-torque 层级 |
| 训练关系 | 高层和低层通常较松耦合,可解释性强 | S2/S1 可端到端联合训练,语义 latent 反向传播到 S2 |
| 能力边界 | 受已有技能库限制明显 | 更像把“技能”内化进神经策略里 |
| 可解释性 | 高 | 较低 |
| 实时控制能力 | 通常不承担高频连续控制 | 明确面向高频动作控制 |
Figure 官方进一步说明,Helix 的 S2 和 S1 是两个主要组件:S2 是 VLM backbone,S1 是 latent-conditional visuomotor transformer;S2 把语义任务信息压缩成 continuous latent vector,传给 S1 以条件化低层动作;S1 输出上半身人形机器人 200 Hz 控制。 这和 PaLM-SayCan 的“从技能集合里选择下一步”不是同一种执行范式。
Code as Policies 也很典型:它让语言模型生成机器人策略程序,程序可以表示 impedance controllers、waypoint-based policies、vision-based pick-and-place 等。 这仍然是 程序 / 技能 / 控制 primitive 调用范式,不是 Helix 那种 latent-conditioned neural motor policy。
D. 世界模型中心型大脑
定义
学术表述:
世界模型学习环境动力学、物体交互、物理后果和未来观测分布,用于动作候选 rollout、模型预测控制、synthetic data generation、edge-case simulation、policy evaluation 或闭环训练。2026 年 embodied world model survey 把 VLA 与 world model 视为当前具身大模型的两条核心路线;NVIDIA Cosmos 则把 world foundation models 定位为 physical AI 的训练、仿真和闭环策略工具。
来源:Embodied World Models Survey,NVIDIA Cosmos
人话:
让机器人先在“脑内小宇宙”或数字孪生里试一遍:如果我这样抓,杯子会不会倒?如果我往左走,会不会撞到桌子?然后再决定真实世界怎么做。
优点
| 维度 | 解释 |
|---|---|
| 节省真实机器人数据 | 真实机器人数据贵、慢、危险,世界模型可以生成训练样本和失败场景。 |
| 适合 edge case | 仓储、自动驾驶、人形家务都需要大量罕见但高风险场景。 |
| 有助于长程规划 | 通过预测未来状态,模型可以比较不同动作序列的后果。 |
| 可作为评估器 | 可以在真实部署前做策略压力测试和安全验证。 |
缺点
| 维度 | 解释 |
|---|---|
| 物理幻觉风险 | 视频看起来合理,不代表接触、摩擦、力控、柔性物体真实。 |
| 误差累积 | rollout 越长,预测误差越可能放大。 |
| sim-to-real gap 仍然存在 | 尤其是灵巧手、衣物、液体、透明/反光物体、细微接触。 |
| 算力和数据成本高 | 高保真世界模型训练和推理本身非常昂贵。 |
代表公司 / 项目
| 公司 / 项目 | 归类依据 |
|---|---|
| NVIDIA Cosmos | Cosmos 是面向 physical AI 的 world foundation model 平台,可从文本、图像、视频生成预测性视频世界,用于边界场景、闭环策略和多视角机器人仿真。来源:NVIDIA Cosmos |
| 1X World Model | 1X 表示其 world model 能预测 NEO 动作后果,支持 autonomous rollout、多任务迁移,并与真实世界评估高度相关。来源:1X World Model |
| Covariant RFM-1 | Covariant 把 RFM-1 描述为 physics world model,可用 AI-generated videos 预测物体对机器人动作的反应并选择行动方案。来源:Covariant RFM-1 |
| AgiBot Genie / GigaBrain | AgiBot 相关工作探索 world foundation platform,以及用 world model 生成数据增强 VLA 训练。来源:AgiBot World Foundation Platform |
| Skild + NVIDIA Isaac / Cosmos | NVIDIA case study 显示 Skild 使用 Isaac Lab、Omniverse、Cosmos,并强调仿真与人类视频作为替代数据来源。来源:NVIDIA Skild AI Case Study |
E. 泛形态 / 跨本体“一脑多体”路线
定义
学术表述:
该路线追求 embodiment-conditioned generalist policy:同一个高层大脑或共享模型能够适配不同形态、自由度、动作空间、传感器和动力学的机器人。关键技术包括动作空间标准化、latent action、低层控制器解耦、morphology-aware representation、跨本体数据混训和 retargeting。Open X-Embodiment / RT-X 是早期关键节点,覆盖 22 种机器人本体和 100 万级 episode;Skild 则直接把“omni-bodied brain / general-purpose brain”作为核心叙事。
来源:Open X-Embodiment / RT-X,Skild Brain
人话:
不是给每台机器人重新训练一颗脑子,而是希望一颗大脑能迁移到机械臂、人形、移动底盘、四足甚至更多形态上。
优点
| 维度 | 解释 |
|---|---|
| 数据池更大 | 不同机器人、不同任务的数据可以互相增益。 |
| 硬件适配成本低 | 理想情况下,新机器人只需少量后训练或低层适配。 |
| 网络效应强 | 越多本体、越多场景,模型越有机会形成通用物理先验。 |
| 商业护城河强 | 数据采集网络、硬件协同和部署闭环可能形成复合壁垒。 |
缺点
| 维度 | 解释 |
|---|---|
| 动作语义不一致 | 不同机器人“向前”“抓取”“用力”的动作空间完全不同。 |
| 负迁移风险 | 异构数据混训不一定总是提升,可能干扰某些本体或任务。 |
| 低层控制仍需专门化 | 力矩、平衡、接触、关节限制高度依赖硬件。 |
| 公开验证困难 | 很多“一脑多体”demo 可能包含平台特定微调、遥操作或场景约束。 |
代表公司 / 项目
| 公司 / 项目 | 归类依据 |
|---|---|
| Skild Brain | Skild 明确强调跨任务、跨硬件、跨形态训练,并采用高低层层级架构;其公开资料提到从 human data 和多种机器人形态中学习。来源:Skild Brain |
| Google Open X / RT-X | Open X-Embodiment 是 22 种机器人本体、100 万级轨迹、500 多项技能的数据集;RT-X 目标就是跨本体正迁移。来源:Open X-Embodiment |
| NVIDIA GR00T | GR00T N1/N1.7 是面向 humanoid 和 cross-embodiment manipulation 的开放 VLA,训练包括真实机器人、人类视频和合成数据。来源:GR00T N1 |
| Physical Intelligence π0 | π0 在单臂、双臂、移动操作等多种平台上训练,目标是 general-purpose robot foundation model。来源:π0 |
| AgiBot World / GO-1 | AgiBot World 以大规模真实机器人数据和 GO-1 generalist policy 为核心,强调真实场景、标准化流程和 latent action 表示。来源:AgiBot World |
| OpenVLA | OpenVLA 使用 Open X-Embodiment 数据训练,并在多机器人本体任务上评估泛化能力。来源:OpenVLA |
三、第二层:数据采集与训练方法分类
具身大模型的竞争,很大程度上是数据获取权、数据质量和闭环效率的竞争。Open X-Embodiment、DROID、AgiBot World 等工作都说明,跨场景、跨任务、跨本体真实数据已经成为通用机器人模型的基础设施。
来源:Open X-Embodiment,DROID,AgiBot World
3.1 数据来源分类
| 数据路线 | 学术表述 | 人话 | 优点 | 缺点 | 代表项目 / 公司 |
|---|---|---|---|---|---|
| 1. 真实机器人遥操作 / 专家示范数据 | teleoperated real-robot trajectories; behavior cloning dataset | 人远程操控机器人干活,模型学录像 | 物理真实、动作标签直接、部署相关性强 | 贵、慢、覆盖有限、操作者偏差 | ALOHA、Mobile ALOHA、DROID、Open X、AgiBot World、Figure、1X、PI |
| 2. 人类视频 / 无机器人示教数据 | robot-free demonstration; human video pretraining; embodiment transfer | 先看人怎么做,再迁移给机器人 | 规模大、成本低、覆盖真实生活动作 | 缺少力/触觉/关节标签,本体差异大 | UMI、Dobb-E、Skild、NVIDIA GR00T human video、1X |
| 3. 合成 / 仿真 / 世界生成数据 | simulation, domain randomization, synthetic VLA data, world-model rollout | 在仿真或生成世界里造训练题 | 可规模化、可生成罕见场景、标签干净 | sim-to-real gap、接触物理不可靠 | NVIDIA Cosmos / Isaac、Galbot GraspVLA、Skild、AgiBot Genie / GigaBrain |
| 4. 跨本体混训数据 | cross-embodiment co-training; embodiment-conditioned learning | 把不同机器人的数据放进一个池子训练 | 提升通用性和数据利用率 | 动作空间对齐难、负迁移 | Open X / RT-X、OpenVLA、GR00T、π0、AgiBot GO-1 |
| 5. 部署闭环数据 | autonomous rollout, fleet logs, failure / intervention / correction data, HITL fine-tuning | 机器人在真实或准真实场景中自己做任务,人类接管、纠错,再把日志和失败样本回灌训练 | 最贴近真实部署分布,能积累长尾失败、接管、恢复和客户场景数据 | 安全、隐私、责任边界、数据清洗和在线更新成本高 | 1X Expert Mode / World Model、Skild、Tesla Optimus 数据采集、Gemini Robotics 后训练 |
1. 真实机器人遥操作 / 专家示范
学术语言:
这是 imitation learning / behavior cloning 的核心数据来源,包含 observation-action trajectories,通常配合 action chunking、diffusion policy、transformer policy 或 VLA fine-tuning。
人话:
最直接:人控制机器人做一遍,机器人照着学。
代表工作包括:ALOHA 低成本双臂遥操作系统、Mobile ALOHA 移动双臂系统、DROID 分布式机器人交互数据集、Open X-Embodiment 跨本体数据集、AgiBot World 百万级真实机器人数据。ALOHA 项目展示了低成本双臂遥操作;Mobile ALOHA 论文显示每个任务约 50 条示范、与静态 ALOHA 数据共训练后部分任务成功率可达 90%;DROID 数据集包含约 7.6 万条轨迹、350 小时交互数据、数百场景和几十名采集者;AgiBot World 宣称 100 万级轨迹和人类在回路验证。
来源:ALOHA,Mobile ALOHA,DROID,AgiBot World
2. 人类视频 / 无机器人示教
学术语言:
这类方法尝试从 in-the-wild human demonstrations、egocentric video、handheld gripper data 或 household demonstrations 中学习视觉-动作先验,再通过 retargeting、policy learning 或低层控制器迁移到机器人。
人话:
机器人数据太贵,就先让模型看人类做家务、抓东西、移动物体,再想办法转成机器人动作。
UMI 用手持 gripper 从真实世界人类示范中学习可迁移的机器人策略;Dobb-E 用低成本采集工具在家庭环境中收集数据,并展示少量新任务示范后的家务机器人学习;Skild 公开强调通过观看 human videos 解决机器人数据稀缺;NVIDIA GR00T 也把 egocentric human videos 作为训练数据组成部分。
来源:UMI,Dobb-E,Skild Brain,GR00T N1
3. 合成 / 仿真 / 世界生成数据
学术语言:
这类数据来自 simulation、domain randomization、photorealistic rendering、world foundation model 或 physics-aware video generation,用于预训练、数据增强、边界场景扩展和策略验证。
人话:
现实里采 100 万次太贵,就在仿真世界里生成 1 亿道练习题。
NVIDIA Cosmos 是这条路线的代表,定位为 physical AI world foundation model 平台;Galbot GraspVLA 公开资料显示其预训练基于 billion-scale synthetic action data;Skild 使用 Isaac Lab、Omniverse、Cosmos 等工具生成大规模模拟样本;AgiBot 也探索 world-model-generated data 来减少对真实机器人数据的依赖。
来源:NVIDIA Cosmos,GraspVLA,NVIDIA Skild Case Study
4. 跨本体混训
学术语言:
跨本体混训通过共享视觉-语言表示、动作 token/latent action、embodiment metadata 或低层 controller adapter,在不同机器人之间实现 positive transfer。
人话:
把不同机器人的经验混在一起训练,希望机械臂学到的东西能帮助人形机器人,人形机器人学到的东西也能反哺机械臂。
Open X-Embodiment / RT-X 是最重要的公开基准之一,包含 22 种机器人本体、100 万级 episode、500 多项技能;OpenVLA 使用 Open X-Embodiment 数据训练;π0、GR00T、Skild 和 AgiBot 都把跨平台或泛本体作为核心方向之一。
来源:Open X-Embodiment,OpenVLA,π0,GR00T N1
5. 部署闭环数据
学术语言:
这是把 autonomous rollout、fleet logs、failure data、human intervention / correction、teleoperation fallback、policy improvement、world-model evaluation 和 HITL fine-tuning 结合起来的闭环训练路径。它不是单纯的“另一种示范数据”,而是部署环境、失败样本和后训练机制叠加形成的数据飞轮。
人话:
机器人在真实或准真实场景中自己干活,系统记录成功、失败、低置信度、异常和人工接管。人类纠错或远程接管后,这些日志、失败片段和恢复轨迹再回灌到模型训练、评估或安全策略里。
这类数据内部至少包含三层,不应再拆成平行数据来源:第一层是部署场景,例如实验室、受限 pilot、客户现场或规模化 fleet;第二层是样本类型,例如成功轨迹、失败示范、人工接管、纠错、恢复和异常日志;第三层是回灌机制,例如 offline behavior cloning、DAgger 式迭代、online RL、HITL fine-tuning 或 world-model evaluation。1X 的 NEO 产品公开提到 Expert Mode,即复杂任务由人类远程监督以帮助系统学习;1X World Model 也强调随着 autonomous rollouts 扩展而提升。Tesla Optimus 方向公开信息较少,但 Tesla 官方把车辆、机器人和自动化部署视为同一套 AI 与机器人能力的延展;第三方报道则提到其通过人工采集 motion data 训练 Optimus。
来源:1X NEO,1X World Model,Tesla AI
3.2 训练方法分类
| 训练方法 | 适用场景 | 代表路线 |
|---|---|---|
| Behavior Cloning / Supervised Imitation | 真实机器人示范充足、任务边界相对明确 | ALOHA、Mobile ALOHA、DROID、OpenVLA、AgiBot |
| Action Chunking Transformer | 双臂操作、长动作序列、低成本遥操作 | ACT、ALOHA、Mobile ALOHA |
| Autoregressive Action Token Modeling | 语言泛化强、动作频率要求不极端 | RT-2、OpenVLA、SmolVLA |
| Diffusion / Flow Matching Action Modeling | 高维连续动作、灵巧操作、接触任务 | Diffusion Policy、π0、GR00T action expert、GraspVLA |
| Cross-Embodiment Co-training | 多机器人数据池、通用模型预训练 | Open X / RT-X、π0、GR00T、Skild、AgiBot |
| World-Model-Augmented Training | 罕见场景、安全验证、synthetic rollout | Cosmos、1X World Model、Covariant RFM-1、AgiBot Genie / GigaBrain |
| Online / RL / Human-in-the-loop Fine-tuning | 部署后持续学习、真实场景修正 | 1X、Skild、Tesla、部分 Gemini Robotics 后训练 |
ACT 通过 action chunking 学习动作序列;Diffusion Policy 把机器人行为建模为条件去噪扩散过程,在多个机器人任务和基准上优于先前方法;π0 使用 flow matching VLA;NVIDIA GR00T 使用 diffusion transformer 作为动作生成模块。
来源:ACT / ALOHA Paper,Diffusion Policy,π0,GR00T N1
四、第三层:还应该纳入的横向分类维度
这些维度经常被忽略,但对技术尽调和投资判断非常关键。
4.1 动作表示方式
2025 年 action-tokenization survey 把 VLA 的动作表示视为统一分类视角,包括 language description、code、affordance、trajectory、goal state、latent representation、raw action、reasoning 等类型。
来源:A Survey of Action Tokenization
| 动作表示 | 典型形式 | 适合场景 | 风险 |
|---|---|---|---|
| 语言 / 代码 | “open drawer”、Python policy | 高层规划、工具调用 | 低层控制缺失 |
| Affordance / 子目标 | grasp point、目标位姿、可行动区域 | 抓取、导航、技能选择 | 需要可靠感知和几何推理 |
| 轨迹 / waypoint | 末端轨迹、base path | 可解释运动规划 | 接触丰富任务弱 |
| 离散动作 token | tokenized action bins | VLA 预训练、语言泛化 | 精度和实时性受限 |
| 连续动作 chunk | 未来 N 步动作 | 双臂、移动操作 | 推理和稳定性压力 |
| Latent action | 隐变量动作码 | 跨本体迁移 | 可解释性弱 |
| 关节 / 力矩 / torque | joint target、torque command | 人形、动态控制 | 安全和硬件耦合强 |
4.2 控制频率与实时性
同样叫 VLA,差别可能非常大:有的模型只做 1–10 Hz 的高层规划,有的要做 50–200 Hz 的 visuomotor control,有的底层甚至要 1 kHz 的平衡和接触控制。Figure Helix 02 把 System 2、System 1、System 0 分别放在不同时间尺度上,就是一个重要信号。
来源:Figure Helix 02
建议数据库字段:
| 字段 | 示例 |
|---|---|
| 高层推理频率 | 1–10 Hz |
| visuomotor policy 频率 | 20–200 Hz |
| 底层控制频率 | 500 Hz–1 kHz |
| 输出层级 | 末端位姿 / joint target / torque |
| 是否 onboard | 是 / 否 |
| 是否依赖云端 | 是 / 否 / 混合 |
4.3 传感器模态
| 模态 | 对能力的影响 |
|---|---|
| RGB / RGB-D | 物体识别、场景理解、导航 |
| 多相机 | 遮挡鲁棒性、手眼协调 |
| Proprioception | 关节状态、姿态、平衡 |
| 触觉 / 力觉 | 灵巧手、软物体、插拔、装配 |
| 音频 / 语音 | 自然交互、指令输入 |
| 事件相机 / 特殊传感 | 高速运动、低光环境等 |
灵巧操作特别依赖触觉、力控和高频闭环;Rodney Brooks 对当前人形机器人炒作的批评之一,就是很多系统在接近人类手部灵巧性和真实部署安全性方面仍有巨大差距。
来源:Rodney Brooks
4.4 本体范围
| 本体类型 | 技术难点 | 代表方向 |
|---|---|---|
| 固定机械臂 | 抓取、分拣、装配 | Covariant、Galbot、RT-X |
| 移动操作臂 | 导航 + 操作 | Mobile ALOHA、1X、π0 |
| 双臂机器人 | 协调、接触、长程操作 | ALOHA、Figure、PI |
| 人形机器人 | 全身控制、平衡、双手、语言交互 | Figure、NVIDIA、1X、Skild、Tesla |
| 四足 / 多足 | locomotion、地形适应、载荷 | Skild、Boston Dynamics 相关合作 |
| 轮式服务机器人 | 成本、场景稳定性、商业落地 | Agility Digit 更偏部署栈,1X / Galbot 偏应用场景 |
4.5 部署成熟度
这对一级市场研究尤其关键。Bessemer 2026 年对 robotics / physical AI 的判断比较冷静:现在更像“GPT-2.5 moment”,能力真实存在,但从实验室 demo 到生产部署仍有显著差距;Rodney Brooks 也持续提醒,不要把短视频 demo 等同于通用人形机器人即将替代人类劳动。
来源:Bessemer Robotics and Physical AI,Rodney Brooks
建议把公司分成五档:
| 档位 | 描述 | 判断指标 |
|---|---|---|
| L0:论文 / demo | 单任务、单场景展示 | 是否有真实机器人闭环 |
| L1:实验室多任务 | 多任务、多物体,但环境受控 | OOD 成功率 |
| L2:受限场景 pilot | 工厂、仓库、零售等半结构化场景 | intervention rate、MTBF |
| L3:商业部署 | 有客户、有 KPI、有运维 | 单位经济性、SLA、维护成本 |
| L4:开放世界泛化 | 家庭、公共空间、复杂人类环境 | 长程任务成功率、安全事件率 |
五、参考公司-路线映射表
| 公司 / 项目 | 主路线 | 数据路线 | 关键证据 |
|---|---|---|---|
| Google DeepMind | RT-2/RT-X 属于策略中心型 VLA;Gemini Robotics 更接近快慢双系统;Gemini Robotics-ER 是 embodied reasoning | Open X 跨本体真实数据、web-scale VLM、机器人轨迹 | RT-2 将 VLM 通过机器人数据转成 VLA;Open X 覆盖 22 种本体、百万级 episode;Gemini Robotics-ER 负责物理推理和多步规划。来源:RT-2 Blog,Open X,Gemini Robotics |
| Physical Intelligence | 策略中心型连续动作 VLA | 多平台机器人数据 + VLM 预训练 + flow matching | π0 是基于 VLM 的 VLA flow model;π0.5 强调新家庭环境 open-world generalization。来源:π0 Paper,π0 Blog |
| Figure AI | 快慢双系统 / 人形 VLA | 人形机器人遥操作与 onboard 部署数据 | Helix 是 System 1 / System 2 VLA;Helix 02 增加 System 0,形成像素到 torque 的层级结构。来源:Helix,Helix 02 |
| NVIDIA | GR00T 属快慢双系统;Cosmos 属世界模型中心 | 真实机器人、人类视频、合成数据、Isaac / Cosmos 仿真 | GR00T N1 使用 System 2 VLM + System 1 diffusion transformer;Cosmos 是 physical AI world foundation model。来源:GR00T N1,Cosmos |
| Skild AI | 泛形态一脑多体 + 分层控制 | 人类视频、仿真、跨形态机器人数据 | Skild Brain 强调跨任务/硬件/形态泛化,高层低频策略 + 低层高频控制。来源:Skild Brain |
| 1X | Redwood 属 VLA/vision-language transformer;1XWM 属世界模型中心 | 真实机器人 rollout、家庭场景、人在回路 Expert Mode | Redwood 是面向人形的 vision-language transformer;1XWM 预测机器人动作后果并随 autonomous rollouts 扩展。来源:1X Redwood,1X World Model |
| Covariant | 世界模型中心 + 仓储 foundation model | 仓储真实机器人数据 + 互联网数据 | RFM-1 被描述为 physics world model,可预测机器人动作导致的物体反应。来源:Covariant RFM-1 |
| AgiBot / 智元 | 策略中心 VLA + 跨本体/数据平台 | 百万级真实机器人轨迹、human-in-loop verification、latent action | AgiBot World 覆盖 217 任务、五类场景;GO-1 使用 latent action representation。来源:AgiBot World |
| Galbot / 银河通用 | 场景化 VLA + 层级 dexterous grasping + synthetic data | 大规模合成动作数据 + 真实后训练 | GraspVLA 使用 billion-scale synthetic action data;DexGraspVLA 是 VLM planner + 低层控制器的层级框架。来源:GraspVLA,DexGraspVLA |
| Hugging Face / LeRobot | 开源策略中心 VLA / robot learning stack | 开源数据集、模仿学习、RL、VLA | LeRobot 提供 imitation learning、RL、VLA 模型实现;SmolVLA 是轻量 VLA。来源:LeRobot GitHub |
| Tesla Optimus | 垂直整合式 embodied autonomy,公开模型细节有限 | 大规模视频/机器人数据采集、车端 AI 迁移可能性 | Tesla 官方把车辆、机器人和自动化部署放在同一 AI/robotics 框架下;但 Optimus 具体 VLA/世界模型细节公开不足,应谨慎分类。来源:Tesla AI |
六、批判性判断
6.1 “VLA”会继续存在,但会被细分
单纯说“某公司做 VLA”已经不够。至少要问:
- 是 动作 token VLA,还是 连续动作 VLA?
- 是 单模型端到端,还是 System 2 + System 1 分层?
- 输出是 末端轨迹、关节目标,还是 力矩?
- 是否能 onboard real-time?
- 是否支持 跨本体迁移?
- 是否有 世界模型做 rollout / synthetic data / safety evaluation?
6.2 近中期更可能落地的是“混合路线”
最可能商业化的不是纯 planner,也不是纯端到端大模型,而是:
高层 embodied reasoning / VLA + 快速动作策略 + 传统控制安全壳 + 高质量数据闭环 + 受限场景部署。
Figure、NVIDIA、Google Gemini Robotics、Skild、1X 的公开路线都在往这个方向收敛。
来源:Figure Helix 02,GR00T N1,Gemini Robotics 1.5,Skild Brain,1X World Model
6.3 数据护城河比模型名字更重要
真正有价值的问题不是“有没有 VLA”,而是:
- 有多少真实机器人小时数?
- 数据是否来自真实客户场景?
- 是否有失败样本、纠错样本、长尾场景?
- 是否有多本体数据融合能力?
- 是否能把人类视频、仿真、真实机器人数据统一训练?
- 是否有部署后持续学习闭环?
Open X、DROID、AgiBot World、π0、GR00T、Skild 都在用不同方式回答这个问题。
来源:Open X-Embodiment,DROID,AgiBot World,π0,GR00T N1,Skild Brain
6.4 世界模型是关键增量,但不是万能替代
世界模型最强的价值目前更像是:
- 生成训练数据;
- 做 edge-case simulation;
- 辅助长程规划;
- 做策略评估;
- 降低真实机器人试错成本。
但在灵巧操作、接触力学、柔性物体、触觉、失败恢复上,world model 仍然很容易出现“视频合理但物理错误”的问题。因此,Cosmos、1XWM、RFM-1 这类路线值得高度关注,但不能直接等同于“机器人已经理解物理世界”。
来源:NVIDIA Cosmos,1X World Model,Covariant RFM-1
七、建议后续建库时采用的字段
这套字段适合直接用于公司研究表:
| 模块 | 字段 |
|---|---|
| 公司基本信息 | 公司名称、累计融资金额 |
| 大脑主路线 | Planner-centric / Policy-centric VLA / Dual-system VLA / World-model-centric / Cross-embodiment |
| 动作表示 | language / code / affordance / trajectory / action token / continuous chunk / latent action / joint / torque |
| 控制频率 | 高层推理 Hz、动作策略 Hz、底层控制 Hz |
| 本体范围 | 单臂、双臂、移动操作、人形、四足、跨本体 |
| 数据来源 | 遥操、人类视频、仿真合成、跨本体混训、部署闭环数据 |
| 数据规模 | 轨迹数、小时数、任务数、场景数、机器人数量 |
| 训练方法 | BC、ACT、diffusion、flow matching、RL、world-model rollout、post-training |
| 部署状态 | L0-L4等级 |
| 可信度评级 | peer-reviewed / official technical doc / company blog / third-party media / demo only |
八、核心参考来源
综述 / 分类框架
- Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
- VLA Survey Website
- A Survey of Action Tokenization for Vision-Language-Action Models
- Embodied World Models Survey
Google / DeepMind
- PaLM-SayCan
- Code as Policies
- RT-2 Blog
- RT-2 Paper
- Open X-Embodiment / RT-X
- Gemini Robotics
- Gemini Robotics 1.5
端到端 VLA / Policy Learning
- OpenVLA
- π0 Paper
- π0 Blog
- π0.5 Blog
- Diffusion Policy
- ALOHA
- Mobile ALOHA
- ACT / ALOHA Paper
- LeRobot GitHub
数据集 / 数据平台
快慢双系统 / 人形机器人
世界模型 / 仿真
- NVIDIA Cosmos
- NVIDIA Skild AI Case Study
- 1X Redwood AI
- 1X World Model
- Covariant RFM-1
- AgiBot World Foundation Platform