概念词条 重要度 5/5
VLA(视觉-语言-动作模型)
又称:VLA · Vision-Language-Action · 具身基座模型 · 操作模型
把视觉、语言指令直接映射到机器人动作的端到端模型,是 2026 具身智能最主流的"大脑"投资逻辑。
关键数据 · 每条带来源
库内做基座模型/VLA 的公司 18 家(智能层)
来源:RobotScope 公司库统计 · 2026-05
代表开源/对照 π0(Physical Intelligence,限合作伙伴)vs OpenVLA(开源,可微调)
来源:第三方 benchmark 对比报道(2026) · 2026-05
关键玩家 · 5 家(来自公司库)
定义
VLA(Vision-Language-Action)是把视觉输入 + 语言指令直接映射到机器人动作的端到端模型。相比”先识别再规划再控制”的传统分层,VLA 用一个学习到的策略统一处理感知到动作,目标是跨任务、跨形态的泛化。
为什么重要
VLA 是 2026 具身智能最主流的投资逻辑:谁的模型泛化更好、数据更足,谁就可能成为机器人行业的”基础模型层”。它也是判断一家公司”是卖硬件还是卖智能”的分水岭。
技术现状
- 路线分化:纯端到端 vs 分层(如 Figure 的 System 0/1/2、慢思考+快反应)
- 数据是瓶颈:靠遥操作 + 仿真 + 视频喂(见数据基建)
- 开放 vs 封闭:开源(OpenVLA 可微调)与封闭(π0 限合作伙伴)并存,生态打法不同
谁在做
库内 18 家智能层公司多在这条线上(见下方「关键玩家」);本体厂商也在自研(如宇树 UnifoLM-VLA、Figure Helix)。各家路线与赌注的判断见其公司页「判断卡」。
数据待补
各模型的 benchmark 对比难标准化,我们只放已核实的事件与公开对照,不放未经核对的”性能排名”。
相关概念
资料来源
- 据公开技术报道与券商研报(2026)
- RobotScope 公司库
数据有误?告诉我们。