视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者来自西安交通大学、南洋理工大学、新加坡科技管理局前沿研究中心。作者列表:郭淇,庞善民,加小俊,Liu Yang 和郭青。其中,第一作者郭淇是西安交通大学博士生。通讯作者西安交通大学庞善民副教授(主页:https://gr.xjtu.edu.cn/web/pangsm)和南洋理工大学的加小俊博士后研究员(主页:https://jiaxiaojunqaq.github.io)。论文已被计算机网络信息安全领域顶级期刊IEEE TIFS录用。
对抗攻击,特别是基于迁移的有目标攻击,可以用于评估大型视觉语言模型(VLMs)的对抗鲁棒性,从而在部署前更全面地检查潜在的安全漏洞。然而,现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构,导致成本较高。此外,由于对抗语义的不自然性,生成的对抗样本的迁移性较低。这些问题限制了现有方法在鲁棒性评估中的实用性。
为了解决这些问题,作者提出了 AdvDiffVLM,一种利用扩散模型通过得分匹配生成自然、无约束且具有针对性对抗样本的方法。具体而言,AdvDiffVLM 使用自适应集成梯度估计(Adaptive Ensemble Gradient Estimation, AEGE),在扩散模型的反向生成过程中调整得分,确保生成的对抗样本具备自然的针对性对抗语义,从而提升迁移性。
同时,为了提高对抗样本的质量,他们引入 GradCAM 引导的掩模生成(GradCAM-guided Mask Generation, GCMG),将对抗语义分散到整个图像中,而不是集中在单一区域。最后,AdvDiffVLM 通过多次迭代,将更多目标语义嵌入到对抗样本中。实验结果表明,与最新的基于迁移的对抗攻击方法相比,该方法生成对抗样本的速度提高了 5 到 10 倍,同时保持了更高质量的对抗样本。
此外,与之前的基于迁移的对抗攻击方法相比,该方法生成的对抗样本具有更好的迁移性。值得注意的是,AdvDiffVLM 能够在黑箱环境中成功攻击多种商用视觉语言模型,包括 GPT-4V。