概念词条重要度 5/5

VLA（视觉-语言-动作模型）

又称：VLA · Vision-Language-Action · 具身基座模型 · 操作模型

把视觉、语言指令直接映射到机器人动作的端到端模型，是 2026 具身智能最主流的"大脑"投资逻辑。

关键数据 · 每条带来源

库内做基座模型/VLA 的公司 18 家（智能层）

来源：RobotScope 公司库统计 · 2026-05

代表开源/对照 π0（Physical Intelligence，限合作伙伴）vs OpenVLA（开源，可微调）

来源：第三方 benchmark 对比报道（2026） · 2026-05

VLA（Vision-Language-Action）是把视觉输入 + 语言指令直接映射到机器人动作的端到端模型。相比”先识别再规划再控制”的传统分层，VLA 用一个学习到的策略统一处理感知到动作，目标是跨任务、跨形态的泛化。

VLA 是 2026 具身智能最主流的投资逻辑：谁的模型泛化更好、数据更足，谁就可能成为机器人行业的”基础模型层”。它也是判断一家公司”是卖硬件还是卖智能”的分水岭。

库内 18 家智能层公司多在这条线上（见下方「关键玩家」）；本体厂商也在自研（如宇树 UnifoLM-VLA、Figure Helix）。各家路线与赌注的判断见其公司页「判断卡」。

各模型的 benchmark 对比难标准化，我们只放已核实的事件与公开对照，不放未经核对的”性能排名”。

数据有误？告诉我们。