一句话定位

形态：无自研整机——提供 Foundation Model / Intelligence Layer，license 给硬件/软件合作伙伴
技术路径：Direct Video-Action (DVA) — video-predictive control，互联网视频预训练 + 闭环视频预测反推动作
数据策略：互联网级视频预训练（数亿视频）→ 少量机器人遥操数据后训练（~10 小时/任务）
团队基因：连续 deep-tech 创业者 Jagdeep Singh（QuantumScape/Infinera）+ Stanford 计算机视觉教授 + World Labs 前生成模型架构师

来源：Pulse2 (2026-03-10) + Rhoda AI Research Blog (2026-05-24)

团队

核心领导层（2026-05-24 官方团队页确认）

首席执行官 / 联合创始人：Jagdeep Singh，此前任 QuantumScape (NYSE: QS) CEO 10+ 年（1→NYSE 上市），更早创立 Infinera (NASDAQ: INFN)、Lightera（被 Ciena 收购）、Raxium（被 Google 收购）；MS CS Stanford + MBA UC Berkeley
首席科学家 / 联合创始人：Eric Ryan Chan，此前任 World Labs 生成模型架构师
科学顾问 / 联合创始人：Gordon Wetzstein，Stanford 教授，Computational Imaging Lab，计算机视觉与成像系统
首席产品官 / 联合创始人：Andrew Wooten
首席研究官 / 联合创始人：Changan Chen
首席战略官：Steve Tirado
首席数据官 / VP 软件工程：Alex Bergman（兼任）
技术贡献者：Siddhartha Srinivasa（机器人领域知名学者，UW 教授/前 Amazon Robotics）

来源：Rhoda AI Team Page (2026-05-24) — 🟢 官方一手

组织信号

团队规模：~60 人（团队页罗列 60 人，含 CEO/Scientist/部分工程团队）
多学科构成：Generative AI、Computer Vision、Robotics
Joanne Truong 在榜（此前 1X Technologies 感知团队）

来源：Rhoda AI Team Page (2026-05-24) — 🟢 官方一手

产品

FutureVision 平台

发布时间：2026-03-10（18 个月 stealth 后）
定位：Robotic Intelligence 平台 / Foundation Model，核心 intelligence layer
商业模式：license 给不同硬件和软件合作伙伴（非自营整机）
初始部署场景：制造与物流（高变异性工业环境）

来源：Pulse2 (2026-03-10) — 🟡 中可信

部署场景（官方网站 Demo）

Returns Processing（退货处理）：端到端物流退货流程，长上下文记忆解决视觉歧义（类似进度看起来相近的阶段需要区分）
Bearing Decanting（轴承分装）：汽车装配线，每箱 10 kg，开箱→分装→分类包装，需双手操作 + 处理薄塑料袋/绑带等易损件。客户此前认为不可自动化
Contico Breakdown（重型容器拆解）：50 磅 Contico 箱，去渣→开锁→折叠回收。因容器大导致的动作不精确放大 + 碎屑随机性
Human Demo Following（人类演示跟随）：单次人类演示注入上下文窗口 → 零样本执行 pick & place 和 drawing

来源：Rhoda AI Official Site (2026-05-24) — 🟢 官方一手

技术路线

核心判断

video-predictive control（DVA）：不依赖机器人遥操数据为主源，而是用互联网规模视频预训练（数百 million 视频）学习运动/物理先验，再用少量机器人数据后训练（~10 小时），最终实现闭环视频预测 → 反推动作。

DVA（Direct Video-Action Model）架构

架构本质：机器人策略即因果视频生成模型，视频模型直接指定目标行为 → inverse dynamics 模型翻译为可行动作
上下文：原生支持数百帧视觉上下文（非 typical VLA 的几帧）
闭环频率：每几百毫秒循环一次（连续感知-预测-执行）
3 项关键技术：

① Causal Video Model + Context Amortization

预训练方式：从零训练因果视频模型（非从双向模型蒸馏），因果视频生成目标
Context Amortization：训练时在历史无噪声上下文的每个位置同时预测未来帧（类比语言模型的 next-token prediction），高效利用数百帧上下文
推理：KV-caching 重用已编码上下文，避免冗余计算
与竞品区别：此前 causal video 方法编码全输入序列但仅监督少量预测帧，计算昂贵；Force22 使用随机噪声掩码但推理退化

来源：Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手

② Inverse Dynamics Model（反推动作翻译）

核心逻辑：视频生成已处理策略决策 → 反推动作翻译是受限得多的非因果预测问题
数据需求：仅需 ~10 小时同构型机器人数据（甚至随机 motion 即可）
同构型复用：同型机器人上跨任务通用

来源：Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手

③ Leapfrog Inference（跳步推理）

问题：模型推理耗时长，物理世界不等模型
方案：重叠推理与动作执行。每帧预测足够长的未来覆盖下一次推理延迟。当前推理时机器人执行上次预测的动作
连续性保障：每次预测以上次执行的动作做条件输入，避免 frame-to-frame 抖动

来源：Rhoda AI Research Blog (2026-05-24) — 🟢 官方一手

数据效率指标

后训练数据量：10–20 小时机器人数据（几日内完成采集）
Shell Game Demo：96% 成功率（三杯猜球，需持续跟踪对象位置/状态/交换）
长达无干预运行：
- Decanting 任务：1.5 小时连续自主运行（YouTube 长视频）
- Contico Breakdown：160 分钟连续自主运行（YouTube 长视频）

来源：Research Blog (2026-05-24) — 🟢 + LinkedIn Demo (2026-05-22)

路线特征总结

强视频先验：互联网视频预训 → 自然理解物理交互/运动/3D 结构/行为惯例
闭环部署：非 open-loop，连续感知-预测-执行
解释性：通过自回归视频生成可视化决策过程，可检查模型决策、比较配置、验证安全行为
路线对标题：physical AI 的”video-native”路线，区别于以语言/图像为中介的传统 VLA

One-Shot 学习能力

上下文学习：注入人类演示视频到上下文窗口 → 零样本执行 pick & place / drawing（无需权重更新）
与业界路线对比：VLA（Vision-Language-Action）以语言/图像为中间表示 → 动作；DVA 以生成未来视频帧为中间表示 → 反推动作

来源：Research Blog (2026-05-24) — 🟢 官方一手

商业验证

阶段：极早期——2026-03 才出 stealth
已展示：
- 在生产制造环境中完成评估：高容量生产线中，机器人小于 2 分钟/周期完成零部件处理，无人工干预，达到/超过客户性能目标
- 多个客户 PoC 成功运行数小时无干预（Decanting 1.5h / Contico 160min）
客户垂直领域：汽车、制造、物流、电商（官网声明）
不确定性：客户数量、收入规模、合作伙伴名单均未公开

来源：Pulse2 (2026-03-10) — 🟡 + Rhoda AI Site (2026-05-24)

融资历史

轮次	金额	时间	投资方
Series A	$450M	2026-03	Capricorn Investment Group, Khosla Ventures, Leitmotif, Matter Venture Partners, Mayfield, Premji Invest, Prelude Ventures, Temasek, Xora, John Doerr

估值：$1.7B post-money
投资人评论：Leitmotif 合伙人 Jens Wiese（前 VW 集团高管）称”自动化高变异性任务在传统上抗拒自动化，Rhoda 的方法可大幅扩展可自动化的范围”

来源：Pulse2 (2026-03-10) — 🟡 中可信

竞争定位

核心判断

赛道：具身基础模型 / 智能层（与 Physical Intelligence、Skild AI、Covariant 直接对位）
差异化路线：video-predictive control（DVA），视频生成作为策略的中介表示
与 1X World Model 对比：1X 也用视频生成但 home-first 整机路线；Rhoda license model + 工业场景
数据飞轮风险：无自营整机 → 数据获取依赖合作伙伴部署 → 飞轮启动更慢
主要挑战：stealth 刚出仅有 PoC；PI 的 π0.7、Skild 的通用模型已有公开 benchmark

风险

商业化风险：license 模式依赖合作伙伴硬件成熟度与部署意愿
执行风险：Jagdeep Singh 有成功创业记录但 robotics 领域经验存疑（团队含世界级人才部分对冲）
估值：$1.7B 已有显著溢价，但收入信号为零
数据飞轮风险：无自营整机部署 → 机器人数据获取受限于合作方进度
竞争收紧：video 路线+工业场景正在拥挤——1X World Model、NVIDIA Cosmos、Google Gemini Robotics 等均在类似方向

动态记录

2026-05-30：Phase 1 维护检查。搜索工具全面不可用（tavily 432 / web_search fetch failed / zhipu_search MCP error / jina_read fetch failed），无法获取新来源。上次完整培育 2026-05-24 已覆盖深度技术细节与 14 条来源。一致性检查通过：profile.md 中 7 个 inline URL 全部在 sources.md 中有对应条目。depth_score 维持 39。来源：14 条存续来源，新增 0 条。
2026-05-24：深度更新（Phase 2 升级）。从官方 Research Blog 获取完整技术细节（因果视频模型·Context Amortization·Leapfrog Inference），确认两个工业 PoC 的量化数据（1.5h / 160min 无干预运行），更新团队全景（60 人，含 Eric Chan/Gordon Wetzstein/Siddhartha Srinivasa）。已知 YouTube 长视频链接：Decanting、Contico。来源：Research Blog (2026-05-24)、Team Page (2026-05-24)。
2026-05-22：首次建档。sources 基础条数 4 条。
2026-03-10：[重大事件] Rhoda AI 出 stealth。发布 FutureVision 平台 + 宣布 $450M Series A at $1.7B valuation。来源：BusinessWire/Pulse2 (2026-03-10)。

Rhoda AI

关键时刻

投资方阵营

一句话定位

团队

核心领导层（2026-05-24 官方团队页确认）

组织信号

产品

FutureVision 平台

部署场景（官方网站 Demo）

技术路线

核心判断

DVA（Direct Video-Action Model）架构

① Causal Video Model + Context Amortization

② Inverse Dynamics Model（反推动作翻译）

③ Leapfrog Inference（跳步推理）

数据效率指标

路线特征总结

One-Shot 学习能力

商业验证

融资历史

竞争定位

核心判断

风险

动态记录

关键时刻

投资方阵营

同梯队公司

一句话定位

团队

核心领导层（2026-05-24 官方团队页确认）

组织信号

产品

FutureVision 平台

部署场景（官方网站 Demo）

技术路线

核心判断

DVA（Direct Video-Action Model）架构

① Causal Video Model + Context Amortization

② Inverse Dynamics Model（反推动作翻译）

③ Leapfrog Inference（跳步推理）

数据效率指标

路线特征总结

One-Shot 学习能力

商业验证

融资历史

竞争定位

核心判断

风险

动态记录