登录

在12个视频理解任务中,Mamba先打败了Transformer



速读:在12个视频理解任务中,Mamba先打败了Transformer2024年04月30日12:29机器之心ProAIxiv专栏是机器之心发布学术、技术内容的栏目。 他们全面审视了Mamba在视频建模中的多重角色,提出了针对14种模型/模块的VideoMambaSuite,在12项视频理解任务中对其进行了深入评估。 在这样的背景下,状态空间模型架构——以Mamba为代表——应运而生,以其线性计算复杂度的优势,展现出处理长序列数据的强大潜力,为Transformer模型的替代提供了可能。 这不仅是技术上的飞跃,更是对未来视频理解研究的有力推动。 尽管如此,目前对于状态空间模型架构在视频理解领域的应用,还存在一些局限性:一是主要集中在视频全局理解任务,如分类和检索;
2024年04月30日 12:29

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。

来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项视频理解任务中对其进行了深入评估。结果令人振奋:Mamba 在视频专用和视频 - 语言任务中均展现出强劲的潜力,实现了效率与性能的理想平衡。这不仅是技术上的飞跃,更是对未来视频理解研究的有力推动。

论文标题:Video Mamba Suite: State Space Model as aVersatile Alternative for Video Understanding

论文链接:https://arxiv.org/abs/2403.09626

代码链接:https://github.com/OpenGVLab/video-mamba-suite

在当今快速发展的计算机视觉领域,视频理解技术已成为推动行业进步的关键驱动力之一。众多研究者致力于探索和优化各种深度学习架构,以期实现对视频内容的更深层次解析。从早期的循环神经网络(RNN)和三维卷积神经网络(3D CNN),到目前广受瞩目的 Transformer 模型,每一次技术的飞跃都极大地拓宽了我们对视频数据的理解和应用。

特别是 Transformer 模型,以其卓越的性能在视频理解的多个领域 —— 包括但不限于目标检测、图像分割、以及多模态问答等 —— 取得了显著成就。 然而,面对视频数据固有的超长序列特性,Transformer 模型也暴露出了其固有的局限性: 由于其计算复杂度呈平方增长,使得对超长视频序列的直接建模变得异常困难。

在这样的背景下,状态空间模型架构 —— 以 Mamba 为代表 —— 应运而生,以其线性计算复杂度的优势,展现出处理长序列数据的强大潜力,为 Transformer 模型的替代提供了可能。尽管如此,目前对于状态空间模型架构在视频理解领域的应用,还存在一些局限性:一是主要集中在视频全局理解任务,如分类和检索;二是主要探索了直接进行时空建模的方式,而对于更多样化的建模方法的探索尚显不足。

为了克服这些局限,并全面评估 Mamba 模型在视频理解领域的潜力,研究团队精心打造了 video-mamba-suite(视频 Mamba 套件)。该套件旨在补充现有研究的不足,通过一系列深入的实验和分析,探索 Mamba 在视频理解中的多样化角色和潜在优势。

研究团队将 Mamba 模型的应用划分为四种不同的角色,并据此构建了一个包含 14 个模型 / 模块的视频 Mamba 套件。经过在 12 个视频理解任务上的全面评估,实验结果不仅揭示了 Mamba 在处理视频和视频 - 语言任务上的巨大潜力,还展现了其在效率和性能之间取得的卓越平衡。论文作者们期待着这项工作能够为视频理解领域的未来研究提供可参考的资源和深刻的见解。

研究背景

视频理解作为计算机视觉研究的基础问题,其核心在于捕捉视频中的时空动态,用一识别并推断活动的性质及其演变过程。目前,针对视频理解的架构探索主要分为三个方向。

首先,基于帧的特征编码方法通过循环网络(如 GRU 和 LSTM)进行时间依赖性建模,但这种分割的时空建模方式难以捕获联合时空信息。其次,三维卷积核的使用在卷积神经网络中实现了对空间和时间相关性的同步考虑。

随着语言和图像领域的 Transformer 模型取得巨大成功,视频 Transformer 模型也在视频理解领域取得了显著进展,展现出超越 RNNs 和 3D-CNNs 的能力。视频 Transformer 通过将视频封装在一系列 token 中,并利用注意力机制实现全局上下文交互和数据依赖的动态计算,从而在统一的方式下处理视频中的时间或时空信息。

然而,由于视频 Transformer 在处理长视频时的计算效率有限,出现了一些变体模型,它们在速度和性能之间取得了平衡。最近,状态空间模型(SSMs)在自然语言处理(NLP)领域展现了其优势。现代 SSMs 在长序列建模中表现出强大的表征能力,同时保持线性时间复杂度。这是因为它们的选择机制消除了存储完整上下文的需要。特别是 Mamba 模型,将时变参数纳入 SSM,并提出了一种硬件感知算法,以实现高效的训练和推理。Mamba 的出色扩展性能表明,它有望成为 Transformer 的一个有前景的替代方案。

同时,Mamba 的高性能和效率使其非常适合视频理解任务。尽管已有一些初步尝试探索 Mamba 在图像 / 视频建模中的应用,但其在视频理解中的有效性尚不明确。针对 Mamba 在视频理解中的潜力进行全面研究的缺失,限制了对其在多样化视频相关任务中能力的进一步探索。

针对以上问题,研究团队对 Mamba 在视频理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。为此,他们首先要解决的问题是如何看待 Mamba 在理解视频方面中的不同角色。基于此,他们进一步研究了 Mamba 在哪些任务中表现得更出色。

论文将 Mamba 在视频建模中的作用分为以下四类:1) 时序模型,2) 时序模块,3) 多模态交互网络,4) 时空模型。针对每种角色,研究团队都在不同的视频理解任务上研究了其视频建模能力。为了 公 平地让 Manba 与  Transformer 一较高下,研究团队根据标准或改进的 Transformer 架构精心选择了用于对比的模型。在此基础上,他们得到了一个包含 14 个模型 / 模块的 Video Mamba Suite,适用于 12 个视频理解任务。研究团队希望 Video Mamba Suite 能成为未来探索基于 SSM 的视频理解模型的基础型资源。

四种角色

Mamba 作为视频时序模型

任务和数据 :研究团队对 Mamba 在五个视频时间任务上的性能进行了评估:时间动作定位(HACS Segment),时间动作分割(GTEA),密集视频字幕(ActivityNet,YouCook),视频段落字幕(ActivityNet,YouCook)和动作预测(Epic-Kitchen-100)。

主题:视频理解|模型|状态空间模型|研究团队|视频理解领域