概念词条重要度 5/5

强化学习（机器人）

又称：强化学习 · reinforcement learning · RL · 机器人强化学习

让机器人通过与环境交互、最大化累积奖励来自主习得技能，是模仿学习之上的关键精调与探索手段。

关键玩家 · 5 家（来自公司库）

物理智能(π)

Physical Intelligence

智能层 → 具身基础模型

波士顿动力

Boston Dynamics

具身本体层 → 四足 + 人形 + 仓储机器人

具身本体层 → 四足机器人 + 人形机器人

Genesis AI

智能层 → 具身基础模型（全栈转型中）

定义

强化学习（reinforcement learning，RL）是让智能体通过与环境反复交互、以最大化累积奖励为目标，自主学习策略的方法。在机器人领域，RL 既用于底层运动控制（如步态、平衡），也越来越多地用于操作技能的精调与泛化。奖励信号可来自物理仿真、真实环境传感器或人类偏好反馈（RLHF 类变体）。

为什么重要

RL 能够让机器人超越人类示范的天花板——在仿真中自主探索人类难以演示的动态动作，或通过大量试错找到更鲁棒的控制策略。对于高动态运动（跑跳、翻滚）和长视野操作任务，RL 是模仿学习无法替代的补充。同时，RL 是「sim-to-real」链路的核心：在仿真中用 RL 大规模训练，再迁移到真机。

技术现状

奖励设计（reward shaping）仍是机器人 RL 最大的工程难点：奖励稀疏或不准确会导致策略崩溃或「奖励黑客」。
主流路径是「模仿学习预训练 → RL 精调」，利用演示数据初始化策略，再用 RL 扩展边界，兼顾样本效率与上限。
大规模并行仿真（如 Isaac Gym/Isaac Lab、Genesis）极大加速了 RL 训练，使原本需要数月的物理训练压缩到数小时。

谁在做

Boston Dynamics 早期通过 RL 实现 Atlas 的高动态运动，是业界最知名的里程碑。宇树（Unitree）在开源社区展示了基于 RL 的人形运动控制成果。Physical Intelligence 和 Figure AI 将 RL 用于操作策略精调，Genesis AI 专注于为 RL 提供高效仿真底座。

数据待补

各公司 RL 训练规模、仿真步数等量化数据将在批量建档阶段从公开技术报告补充，暂不放未经核实的数字。

关键玩家 · 5 家（来自公司库）

定义

为什么重要

技术现状

谁在做

数据待补

相关概念