RobotScope RobotScope
概念词条 重要度 5/5

VLA(视觉-语言-动作模型)

又称:VLA · Vision-Language-Action · 具身基座模型 · 操作模型

把视觉、语言指令直接映射到机器人动作的端到端模型,是 2026 具身智能最主流的"大脑"投资逻辑。

关键数据 · 每条带来源

库内做基座模型/VLA 的公司 18 家(智能层)
来源:RobotScope 公司库统计 · 2026-05
代表开源/对照 π0(Physical Intelligence,限合作伙伴)vs OpenVLA(开源,可微调)
来源:第三方 benchmark 对比报道(2026) · 2026-05

关键玩家 · 5 家(来自公司库)

定义

VLA(Vision-Language-Action)是把视觉输入 + 语言指令直接映射到机器人动作的端到端模型。相比”先识别再规划再控制”的传统分层,VLA 用一个学习到的策略统一处理感知到动作,目标是跨任务、跨形态的泛化。

为什么重要

VLA 是 2026 具身智能最主流的投资逻辑:谁的模型泛化更好、数据更足,谁就可能成为机器人行业的”基础模型层”。它也是判断一家公司”是卖硬件还是卖智能”的分水岭。

技术现状

谁在做

库内 18 家智能层公司多在这条线上(见下方「关键玩家」);本体厂商也在自研(如宇树 UnifoLM-VLA、Figure Helix)。各家路线与赌注的判断见其公司页「判断卡」。

数据待补

各模型的 benchmark 对比难标准化,我们只放已核实的事件与公开对照,不放未经核对的”性能排名”。

相关概念

资料来源

数据有误?告诉我们