具身基础模型（embodied foundation model）是将大规模预训练范式引入机器人领域的产物：在海量跨任务、跨机器人形态的数据上训练，得到一个能够零样本或少样本泛化到新任务、新场景、甚至新机器人硬件的通用策略模型。与单任务专用模型不同，具身基础模型的目标是成为「机器人界的 GPT」——一个可被上层应用调用的通用基座。

为什么重要

具身基础模型代表了机器人行业从「一机一策略」走向「通用智能」的范式转变。如果这条路跑通，模型层将成为整个产业链的利润集中点：硬件同质化后，谁的基础模型泛化更好，谁就掌握了定价权和生态入口。这也是为什么大量资本正在流向少数几家专注模型层的公司。

技术现状

当前代表性路线是 VLA 架构：以视觉-语言大模型为主干，接入动作解码头（扩散策略或流匹配），在多任务遥操作数据上大规模预训练。
跨机器人形态泛化（即同一模型同时驱动单臂、双臂、移动操作机器人）是前沿挑战，需要统一的动作空间抽象与大量多形态数据。
数据规模与质量是当前瓶颈：各家竞相建立数据采集基础设施和数据联盟，以期在预训练阶段形成壁垒。

谁在做

Physical Intelligence 的 π0 系列是目前最具代表性的具身基础模型产品，已与多家本体厂商建立合作。Skild AI 和 Generalist AI 明确以通用机器人基础模型为核心方向。Figure AI（Helix）、1x Technologies 在自研本体的同时也在打造自有基础模型。国内 Galaxea AI 等公司也正在这条路线上快速推进。

数据待补

具身基础模型的任务覆盖数、跨平台泛化成功率等量化指标将在批量建档阶段从公开技术报告补充，暂不放未经核实的数字。

关键玩家 · 6 家（来自公司库）

定义

为什么重要

技术现状

谁在做

数据待补

相关概念