概念词条 重要度 4/5
扩散策略
又称:扩散策略 · diffusion policy · DP · 流匹配策略 · flow matching policy
将扩散模型引入机器人动作生成的策略框架,能建模多模态动作分布,显著提升复杂操作任务的成功率。
关键玩家 · 4 家(来自公司库)
定义
扩散策略(diffusion policy)是将**去噪扩散概率模型(DDPM)**引入机器人动作生成的策略学习框架。给定当前观测(视觉 + 本体感知),模型通过迭代去噪过程生成未来动作序列,从而显式建模动作的多模态概率分布。其核心优势在于不再将策略输出退化为单一均值,而是能够捕捉「同一任务可能有多种合理做法」的内在歧义性。
为什么重要
传统行为克隆用均方误差拟合动作,面对多模态示范(如同一场景下操作者有不同惯用手法)时会学到模糊均值,导致动作抖动甚至失败。扩散策略从根本上解决了这一问题,在抓取、摆放、装配等精细操作任务上显著提升成功率,已成为学术界与工业界的主流动作表示范式。
技术现状
- 流匹配(flow matching)作为扩散策略的高效变体正在被广泛采用,推理步数更少、速度更快,Physical Intelligence 的 π0 模型即采用此路线。
- 扩散策略通常作为 VLA 架构中的动作解码头,与视觉-语言主干(如 PaliGemma、Llama)结合,实现从语言指令到动作序列的端到端映射。
- 扩散策略的推理延迟仍是工程挑战,一致性模型(consistency model)等加速方案正在并行探索中。
谁在做
Physical Intelligence 将扩散/流匹配策略作为 π0 系列模型的核心,是该方向最具代表性的公司。Covariant 在商业操作任务中使用扩散策略取得了实际落地效果。Figure AI 和 Skild AI 也在各自的策略模型中采用了类似框架。
数据待补
各模型在标准操作任务上的基准成绩将在批量建档阶段从公开论文中补充,暂不放未经核实的性能数字。