概念词条重要度 4/5

多模态感知

又称：多模态感知 · 多传感器融合 · Multimodal Perception · Sensor Fusion

融合视觉、触觉、听觉、深度等多源传感器信息，为机器人构建对物理环境的全面理解。

关键玩家 · 3 家（来自公司库）

多模态感知（Multimodal Perception）是指机器人系统融合来自多种异构传感器的信息——包括 RGB 摄像头、深度相机、激光雷达、触觉传感器、麦克风、IMU 等——构建对物理环境及自身状态的统一、鲁棒理解。其核心挑战在于跨模态的时间对齐、空间标定与语义融合。

单一传感器在复杂真实场景中必然存在盲区：视觉在遮挡或光照不足时失效，触觉无法远距感知，激光雷达对透明/镜面物体鲁棒性差。多模态融合是让机器人在非结构化场景下可靠感知的关键路径，也是「灵巧操作」与「力控」等上层能力的感知底座。