CVPR 2026|视觉脑机迈向双向交互!神经流模型NeuroFlow打通视觉与神经的双向通道
视觉脑机接口的终极目标,是建立大脑神经皮层与外部视觉感知的双向交互通道,从“ 单向理解 ”走向“ 双向交互 ”,既能从大脑神经活动中重建出视觉信息(读脑),也能把视觉信息自然写入神经皮层(写脑),同时保证“读脑”与“写脑”过程的可交互性与双向一致性。
来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队,提出 首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow ,相关成果入选 CVPR 2026 。 它首次将视觉编码(写脑)与解码(读脑)整合到同一可逆流结构中,打通视觉感知与神经活动之间的双向通路,为理解人类视觉认知机制、构建下一代 通用视觉假体 与 双向脑机接口 提供了全新范式。
论文标题:
NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity
论文地址:
https://arxiv.org/abs/2604.09817
主页地址:
https://michaelmaiii.github.io/NeuroFlow-S
本文第一作 者为香港大学PhD麦伟健,相关研究工作于上海人工智能实验室科研实习期间完成;共同通讯作者分别为伍佳敏,Andrew F. Luo 和宋纯锋。该工作已经被 CVPR 2026 会议接收。
视觉神经建模困境:
从“割裂单向”到“统一双向”的范式转变需求
在人类视觉感知系统中,外界视觉刺激可 激活大脑产生神经响应(编码) ,同时大脑神经响应能够用于 重建相应的感知内容(解码) ,二者形成互补的信息处理通路。但长期以来,视觉神经建模面临难以突破的瓶颈:
1) 编码与解码长期割裂 : 两类任务被视为独立问题,需分别训练模型、使用不同潜空间,缺乏交互,难以保证双向一致性;
2) 双向跨模态对齐困难 :当前方法多依赖简单线性或扩散范式下的单向映射,难以保证建模视觉-神经模态间的双向对齐。
3) 神经模式解释性不足 : 生成的神经信号易陷入体素级噪声,与大脑真实皮层激活模式存在偏差,缺乏生物学可解释性。这种 “单向割裂” 的范式,限制了我们对视觉神经机制的深层理解,也阻碍了双向脑机技术的进一步发展。
统一建模突破:
NeuroFlow 构建视觉-神经可逆映射新架构
为破解上述难题,NeuroFlow 首次在单一模型内实现 视觉编码+神经解码 的统一建模,用一套架构完成双向任务,核心包含两大创新模块:
1、NeuroVAE 概率变分主干
人类神经响应天然存在一对多的随机特性:大脑在感知同一个视觉刺激时,受生理噪声、脑状态波动、采集试次差异影响,多次记录得到的 fMRI 脑活动分布各不相同。针对该视觉-神经活动之间的“一对多”变异性,NeuroVAE 引入变分概率建模范式,不再将脑信号映射为单点固定特征,而是输出概率分布表征,把高维杂乱的原始 fMRI 体素数据压缩至维度紧凑、语义结构化的统一隐空间。模型在保留关键神经信息的同时过滤冗余噪声,并通过对比学习与循环一致性约束,实现神经表征与视觉语义的深度对齐,为跨模态统一建模奠定基础。
2、XFM 跨模态流匹配
当前跨模态生成方案普遍采用条件扩散范式,依赖单一模态信息作为条件引导、从纯高斯噪声迭代生成另一模态数据,训练与推理逻辑单向固化,很难自然实现正向、反向双向转换。 XFM 跨模态流匹配跳出 “噪声生成数据 + 单模态条件引导” 的固有框架,直接基于常微分方程连续演化思想,在共享隐空间中学习 视觉表征分布 与 NeuroVAE神经表征分布 之间的连续可逆变换流场,无需条件引导便可直接构建从源分布平滑过渡至目标分布的完整演化路径。
模型定义随时间 [0, 1] 变化的矢量场,采用余弦插值构建从源分布到目标分布的平滑过渡轨迹。其中,1) 正向演化对应编码任务 , 时间由0 → 1推进,视觉特征沿流场连续变换生成对应神经表征,完成图像到脑信号的编码,再通过NeuroVAE生成真实的神经信号;2) 反向演化对应解码任务 : 时间由1 → 0推进、沿时间逆向求解 ODE,由神经表征回溯还原原始视觉特征,再通过视觉生成器实现从脑信号中重建图像。仅通过时间方向区分两种过程,从机理上保证编码与解码的强语义一致性。这一架构让视觉与神经在共享潜空间内形成稳定、可逆、可解释的映射关系,实现真正意义上的双向互通。
实验亮点与结果:
全面领先,信号真实,一致性突出
研究团队在大规模自然场景 fMRI 数据集(NSD)上进行全面验证,与 MindEye2、BrainDiffuser、SynBrain 等主流模型对比,NeuroFlow 展现出全方位优势:
1) 视觉解码性能 : 从神经信号重建的图像与原视觉刺激的语义/轮廓一致性更高,且性能超越现有视觉解码基线;
2) 编码-解码一致性 : 图像→神经→重建图像的双向一致性高度稳定;
3) 神经信号真实性 :合成神经信号可抑制早期视觉区的跨试次随机噪声,更关注于 FFA(脸部)、EBA(身体)、PPA(场景)等高级语义功能区,与真实视觉皮层激活模式高度吻合;
4) 高效轻量性 : 无需预训练,仅需当前最优解码模型的25%训练参数便可在编码与解码任务中都达到更优性能,训练高效、易于部署与拓展。这些实验证明,NeuroFlow 不仅性能领先,更能生成大脑可理解、语义可对齐、生理可解释的神经表征,为视觉认知研究提供可信工具。
主题: