一句话定位
- 形态:无自研整机——提供 Foundation Model / Intelligence Layer,license 给硬件/软件合作伙伴
- 技术路径:Direct Video-Action (DVA) — video-predictive control,互联网视频预训练 + 闭环视频预测反推动作
- 数据策略:互联网级视频预训练(数亿视频)→ 少量机器人遥操数据后训练(~10 小时/任务)
- 团队基因:连续 deep-tech 创业者 Jagdeep Singh(QuantumScape/Infinera)+ Stanford 计算机视觉教授 + World Labs 前生成模型架构师
来源:Pulse2 (2026-03-10) + Rhoda AI Research Blog (2026-05-24)
团队
核心领导层(2026-05-24 官方团队页确认)
- 首席执行官 / 联合创始人:Jagdeep Singh,此前任 QuantumScape (NYSE: QS) CEO 10+ 年(1→NYSE 上市),更早创立 Infinera (NASDAQ: INFN)、Lightera(被 Ciena 收购)、Raxium(被 Google 收购);MS CS Stanford + MBA UC Berkeley
- 首席科学家 / 联合创始人:Eric Ryan Chan,此前任 World Labs 生成模型架构师
- 科学顾问 / 联合创始人:Gordon Wetzstein,Stanford 教授,Computational Imaging Lab,计算机视觉与成像系统
- 首席产品官 / 联合创始人:Andrew Wooten
- 首席研究官 / 联合创始人:Changan Chen
- 首席战略官:Steve Tirado
- 首席数据官 / VP 软件工程:Alex Bergman(兼任)
- 技术贡献者:Siddhartha Srinivasa(机器人领域知名学者,UW 教授/前 Amazon Robotics)
来源:Rhoda AI Team Page (2026-05-24) — 🟢 官方一手
组织信号
- 团队规模:~60 人(团队页罗列 60 人,含 CEO/Scientist/部分工程团队)
- 多学科构成:Generative AI、Computer Vision、Robotics
- Joanne Truong 在榜(此前 1X Technologies 感知团队)
来源:Rhoda AI Team Page (2026-05-24) — 🟢 官方一手
产品
FutureVision 平台
- 发布时间:2026-03-10(18 个月 stealth 后)
- 定位:Robotic Intelligence 平台 / Foundation Model,核心 intelligence layer
- 商业模式:license 给不同硬件和软件合作伙伴(非自营整机)
- 初始部署场景:制造与物流(高变异性工业环境)
来源:Pulse2 (2026-03-10) — 🟡 中可信
部署场景(官方网站 Demo)
- Returns Processing(退货处理):端到端物流退货流程,长上下文记忆解决视觉歧义(类似进度看起来相近的阶段需要区分)
- Bearing Decanting(轴承分装):汽车装配线,每箱 10 kg,开箱→分装→分类包装,需双手操作 + 处理薄塑料袋/绑带等易损件。客户此前认为不可自动化
- Contico Breakdown(重型容器拆解):50 磅 Contico 箱,去渣→开锁→折叠回收。因容器大导致的动作不精确放大 + 碎屑随机性
- Human Demo Following(人类演示跟随):单次人类演示注入上下文窗口 → 零样本执行 pick & place 和 drawing
来源:Rhoda AI Official Site (2026-05-24) — 🟢 官方一手
技术路线
核心判断
video-predictive control(DVA):不依赖机器人遥操数据为主源,而是用互联网规模视频预训练(数百 million 视频)学习运动/物理先验,再用少量机器人数据后训练(~10 小时),最终实现闭环视频预测 → 反推动作。
DVA(Direct Video-Action Model)架构
- 架构本质:机器人策略即因果视频生成模型,视频模型直接指定目标行为 → inverse dynamics 模型翻译为可行动作
- 上下文:原生支持数百帧视觉上下文(非 typical VLA 的几帧)
- 闭环频率:每几百毫秒循环一次(连续感知-预测-执行)
- 3 项关键技术:
① Causal Video Model + Context Amortization
- 预训练方式:从零训练因果视频模型(非从双向模型蒸馏),因果视频生成目标
- Context Amortization:训练时在历史无噪声上下文的每个位置同时预测未来帧(类比语言模型的 next-token prediction),高效利用数百帧上下文
- 推理:KV-caching 重用已编码上下文,避免冗余计算
- 与竞品区别:此前 causal video 方法编码全输入序列但仅监督少量预测帧,计算昂贵;Force22 使用随机噪声掩码但推理退化
来源:Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手
② Inverse Dynamics Model(反推动作翻译)
- 核心逻辑:视频生成已处理策略决策 → 反推动作翻译是受限得多的非因果预测问题
- 数据需求:仅需 ~10 小时同构型机器人数据(甚至随机 motion 即可)
- 同构型复用:同型机器人上跨任务通用
来源:Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手
③ Leapfrog Inference(跳步推理)
- 问题:模型推理耗时长,物理世界不等模型
- 方案:重叠推理与动作执行。每帧预测足够长的未来覆盖下一次推理延迟。当前推理时机器人执行上次预测的动作
- 连续性保障:每次预测以上次执行的动作做条件输入,避免 frame-to-frame 抖动
来源:Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手
数据效率指标
- 后训练数据量:10–20 小时机器人数据(几日内完成采集)
- Shell Game Demo:96% 成功率(三杯猜球,需持续跟踪对象位置/状态/交换)
- 长达无干预运行:
- Decanting 任务:1.5 小时连续自主运行(YouTube 长视频)
- Contico Breakdown:160 分钟连续自主运行(YouTube 长视频)
来源:Research Blog (2026-05-24) — 🟢 + LinkedIn Demo (2026-05-22)
路线特征总结
- 强视频先验:互联网视频预训 → 自然理解物理交互/运动/3D 结构/行为惯例
- 闭环部署:非 open-loop,连续感知-预测-执行
- 解释性:通过自回归视频生成可视化决策过程,可检查模型决策、比较配置、验证安全行为
- 路线对标题:physical AI 的”video-native”路线,区别于以语言/图像为中介的传统 VLA
One-Shot 学习能力
- 上下文学习:注入人类演示视频到上下文窗口 → 零样本执行 pick & place / drawing(无需权重更新)
- 与业界路线对比:VLA(Vision-Language-Action)以语言/图像为中间表示 → 动作;DVA 以生成未来视频帧为中间表示 → 反推动作
来源:Research Blog (2026-05-24) — 🟢 官方一手
商业验证
- 阶段:极早期——2026-03 才出 stealth
- 已展示:
- 在生产制造环境中完成评估:高容量生产线中,机器人小于 2 分钟/周期完成零部件处理,无人工干预,达到/超过客户性能目标
- 多个客户 PoC 成功运行数小时无干预(Decanting 1.5h / Contico 160min)
- 客户垂直领域:汽车、制造、物流、电商(官网声明)
- 不确定性:客户数量、收入规模、合作伙伴名单均未公开
来源:Pulse2 (2026-03-10) — 🟡 + Rhoda AI Site (2026-05-24)
融资历史
| 轮次 | 金额 | 时间 | 投资方 |
|---|---|---|---|
| Series A | $450M | 2026-03 | Capricorn Investment Group, Khosla Ventures, Leitmotif, Matter Venture Partners, Mayfield, Premji Invest, Prelude Ventures, Temasek, Xora, John Doerr |
- 估值:$1.7B post-money
- 投资人评论:Leitmotif 合伙人 Jens Wiese(前 VW 集团高管)称”自动化高变异性任务在传统上抗拒自动化,Rhoda 的方法可大幅扩展可自动化的范围”
来源:Pulse2 (2026-03-10) — 🟡 中可信
竞争定位
核心判断
- 赛道:具身基础模型 / 智能层(与 Physical Intelligence、Skild AI、Covariant 直接对位)
- 差异化路线:video-predictive control(DVA),视频生成作为策略的中介表示
- 与 1X World Model 对比:1X 也用视频生成但 home-first 整机路线;Rhoda license model + 工业场景
- 数据飞轮风险:无自营整机 → 数据获取依赖合作伙伴部署 → 飞轮启动更慢
- 主要挑战:stealth 刚出仅有 PoC;PI 的 π0.7、Skild 的通用模型已有公开 benchmark
风险
- 商业化风险:license 模式依赖合作伙伴硬件成熟度与部署意愿
- 执行风险:Jagdeep Singh 有成功创业记录但 robotics 领域经验存疑(团队含世界级人才部分对冲)
- 估值:$1.7B 已有显著溢价,但收入信号为零
- 数据飞轮风险:无自营整机部署 → 机器人数据获取受限于合作方进度
- 竞争收紧:video 路线+工业场景正在拥挤——1X World Model、NVIDIA Cosmos、Google Gemini Robotics 等均在类似方向
动态记录
- 2026-05-24:深度更新(Phase 2 升级)。从官方 Research Blog 获取完整技术细节(因果视频模型·Context Amortization·Leapfrog Inference),确认两个工业 PoC 的量化数据(1.5h / 160min 无干预运行),更新团队全景(60 人,含 Eric Chan/Gordon Wetzstein/Siddhartha Srinivasa)。已知 YouTube 长视频链接:Decanting、Contico。来源:Research Blog (2026-05-24)、Team Page (2026-05-24)。
- 2026-05-22:首次建档。sources 基础条数 4 条。
- 2026-03-10:[重大事件] Rhoda AI 出 stealth。发布 FutureVision 平台 + 宣布 $450M Series A at $1.7B valuation。来源:BusinessWire/Pulse2 (2026-03-10)。