关于具身智能「触觉」，你想知道的都在这篇综述里了

速读：随着大语言模型（LLM）、世界动作模型（WAM）和视觉-语言-动作（VLA）大模型的爆发，将触觉与视觉、语言相融合，以弥合物理交互与高级语义推理之间的鸿沟，已成为机器人领域的必然趋势。多模态触觉融合综述的结构概述。

2026年04月07日 17:2

在具身智能的感知拼图中，触觉一直扮演着不可或缺却难以被完美量化的角色。它提供了视觉等远程传感器无法替代的关于接触几何、材料特性和交互动态的直接反馈。

随着大语言模型（LLM）、世界动作模型（WAM）和视觉 - 语言 - 动作（VLA）大模型的爆发，将触觉与视觉、语言相融合，以弥合物理交互与高级语义推理之间的鸿沟，已成为机器人领域的必然趋势。

本文由香港科技大学（广州）熊辉教授团队牵头，联合灵心巧手（LinkerBot）以及西安交通大学、复旦大学、北京邮电大学、南京大学等，以《Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms》为主题，全面梳理并分析截至 2026 年第一季度的前沿研究，提出了一个涵盖多模态数据集、模型方法、传感器硬件和评估体系的层次分类法。本文将带你全面拆解这篇重磅综述的核心干货。

论文题目：Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms

作者单位：香港科技大学（广州）、灵心巧手、西安交大、复旦、南大、北邮、武大等

论文地址：https://www.researchgate.net/publication/403306640_Tactile-based_Multimodal_Fusion_in_Embodied_Intelligence_A_Survey_of_Vision_Language_and_Contact-Driven_Paradigms

GitHub 仓库：https://github.com/Wayne-coding/Multimodal-Tactile-Sensing-and-Fusion

图 1. 多模态触觉融合综述的结构概述一、为什么具身智能不可缺少触觉？

与视觉等远端模态不同，触觉提供了表面纹理、材料属性和接触动态的直接、近端反馈，这对于解决视觉模糊性至关重要。对于具身智能体而言，触觉反馈不仅仅是一种辅助模态，更是感知 - 行动闭环中的基本组成部分，触觉作为连接被动观察与主动物理交互的桥梁，能够提供关于物体几何形状、材质属性以及接触动力学最直接的反馈，这是远距离传感器无法替代的。在充满物理接触的环境中，这种多传感器线索的协同作用（尤其是视觉与触觉的协同），是构建稳健的感知和控制系统、使智能体能够真正在物理世界中进行精确操作和稳定抓取的关键。

图 2. 多模态触觉融合的代表性数据集和方法综述二、底层逻辑：多模态触觉融合的四阶段 Pipeline

与视觉或语言不同，触觉信号是接触驱动的，只有在物理交互发生时才会产生。综述指出，现有的多模态触觉融合系统在底层基本都遵循一个严谨的四阶段处理流程：

物理转导与时空观察：传感器将形变、力或振动等物理刺激转化为数字信号（如高维矩阵或图像串）。

特定模态表征学习：针对不同模态使用专属的编码器（如用于视觉 / 触觉编码的 ResNet 或 ViT，用于自然语言编码的 OpenCLIP），将其转化为统一维度的潜在特征向量。

跨模态融合：通过特征拼接、交叉注意力机制或对比学习对齐，将单模态特征融合成共享的联合表征。

具身解码与任务执行：将融合后的特征输出为最终结果，比如物体类别、生成的文本描述或机器人的控制动作。

三、多模态触觉融合的全景蓝图

本综述创新性地提出了一个层次化分类体系，将多模态触觉融合系统地划分为三大支柱：多模态数据集、多模态方法和触觉传感器。

图 3. 2015 - 2026 年多模态触觉融合论文发表趋势。 1. 数据集篇：从实验室单一配对走向真实世界的丰富语义

图 4. 基于触觉的多模态融合数据集的比较总结数据集是跨模态学习的 “燃料”。文章根据模态组成，将现有数据集的发展脉络划分为四大阶段：

触觉 - 视觉 (T-V) 数据集：早期（如 VT Dataset）主要关注受控环境下的机器人抓取；近期则向无约束的野外环境（如 Touch in the Wild）和复杂形变物体（如 TouchClothing）发展。

触觉 - 语言 (T-L) 数据集：旨在建立触觉与人类认知的桥梁。例如 PhysiCLEAR 记录了物体的软硬、粗糙度，而最新的 STOLA 则支持开放式的触觉常识推理，打破了过去只能依赖视觉进行语义接地的局限。

触觉 - 视觉 - 语言 (T-V-L) 数据集：迎合当前大模型趋势的终极形态。比如 Touch100k 包含了超 10 万个三模态对齐样本，不仅有短语标签，还有长文本自然语言描述，完美支持跨模态对齐。

触觉 - 视觉 - 其他 (T-V-O) 数据集：引入了动作、音频或本体感觉。著名的 ObjectFolder 系列结合了撞击音频；而 OmniViTac 等数据集则加入了动作序列，支持端到端的接触丰富型操作策略学习。

2. 方法论的三大范式：感知、生成与控制的全面进化

在算法层面，综述将数百篇前沿工作结构化为三个核心方向，并对其进行了详细的子任务拆解：

主题：触觉|视觉|多模态触觉融合|具身智能|物理交互