登录

国内首套:港中文团队发布7模态人体动作数据集,揭开大模型理解能力短板|香港中文大学(深圳)


速读:
国内首套:港中文团队发布7模态人体动作数据集,揭开大模型理解能力短板

国内首套:港中文团队发布7模态人体动作数据集,揭开大模型理解能力短板

2026年05月25日 16:25

近日,香港中文大学信息工程系邢国良教授 团队的博士生蒋思阳 作为第一作者,完成了一项名为  CUHK-X  的大型多模态人体动作数据集,这个数据集能让 AI 真正看懂人在做什么、为什么这么做以及接下来要做什么。 这项研究成果已被移动计算领域顶级国际会议 ACM MobiSys 2026 接收。

有了它, 服务机器人可以更聪明地理解你的需求,养老院能提前预警老人摔倒风险,康复系统能分析病人的动作是否标准。 他们用这个数据集测了市面上好几款主流的大模型,发现即便是最聪明的 AI,在理解人类真实动作这件事情上,平均正确率也只有四成左右,还有很长的路要走。

这项研究其实是被现实需求逼出来的,该团队之前在做边缘部署的 AI 系统时发现,现有的数据集都只停留在识别层面,比如拍一个人摔倒,AI 知道这是摔倒。不过大模型时代需要的不只是认出来,还要理解这个人是怎么摔倒的,是绊到了椅子还是被东西砸到,以及摔倒之后应该怎么办。

理解和推理这两个能力,恰恰是 AI 要走进家庭、医院、养老院这些真实场景时最需要的。市面上的主流大模型主要针对彩色照片优化,面对深度图、热成像、毫米波雷达这些非常规传感器时表现很差,根本原因就是缺少这类传感器的配对数据。

CUHK X 的数据收集走了一条反常规的路径,传统做法是先随便拍一堆视频,然后找人一帧一帧打标签,效率极低还容易出错。 该团队先设计好动作场景,再用大模型把动作串成一段有逻辑的剧情,最后让参与者照着剧情演。 比如刷牙洗脸梳头穿衣服这几个动作,大模型会生成一段从起床到洗漱完毕的完整描述,参与者照着演就行了。数据收集前标签就已经定好了,准确性大大提高。

整个数据集包含 40 个动作,分成了七个大类。这套动作清单是从 12 个公开数据集的 349 个动作中筛选出来的高频动作。

数据收集使用的传感器阵容相当豪华,主摄像头是一台 Goermicro Vzense NYX 650,同时输出彩色、深度和红外三种信号。热成像用的是海康威视 TB4117,毫米波雷达是德州仪器 IWR6843ISK。惯性传感器用的是五台 WitMotion WT9011DCL BT50,分别绑在双手手腕、双脚脚踝和腰部。

所有传感器通过主机的全局时钟同步,用场记板标记起始点,确保七路信号精确对齐。整个数据收集在两个室内环境中完成,覆盖了客厅、厨房、卧室和卫生间四个典型居室场景。

主题:动作|理解