概念词条 重要度 5/5
模仿学习
又称:模仿学习 · imitation learning · 行为克隆 · behavioral cloning · IL
让机器人从人类示范数据中学习操作策略,是目前最主流的机器人训练数据来源与算法基础。
关键玩家 · 5 家(来自公司库)
定义
模仿学习(imitation learning)是让机器人通过观察和复制人类示范来习得技能的方法论。最简形式是行为克隆(behavioral cloning,BC):把「状态→动作」映射当做监督学习问题,直接拟合人类演示轨迹。更复杂的变体包括逆强化学习(IRL)和 DAgger 等交互式采集方案,用于缓解分布偏移问题。
为什么重要
模仿学习是当前机器人领域数据飞轮的起点:真实世界的遥操作数据 → 喂给模仿学习 → 得到初始策略 → 再用强化学习或仿真扩增。相比从零强化学习,模仿学习样本效率更高,危险探索更少,可以快速覆盖人类日常操作场景。对于需要商业落地的机器人公司,这条路径是当下最务实的技术路线。
技术现状
- 行为克隆对数据量敏感,泛化能力受限于示范的多样性和质量,是瓶颈所在。
- 扩散策略(diffusion policy)和流匹配(flow matching)作为模仿学习的动作表示框架,正在逐步替代早期的均值回归方案,显著提升了对多模态动作分布的建模能力。
- 主流公司普遍将模仿学习与遥操作数据采集、仿真数据增强结合使用,形成「人工示范 → 模仿预训练 → RL 精调」的三段式管线。
谁在做
模仿学习是整个具身智能行业的通用技术底座,几乎所有做操作策略的公司都在使用。以 π0(Physical Intelligence)为代表的专注策略模型公司在这条路上投入最深;Covariant、Figure AI 等也将模仿学习作为核心训练方法。
数据待补
各公司模仿学习数据集规模、任务覆盖度等量化指标将在批量建档阶段从公开技术报告中补充,暂不放未经核实的数字。