登录

科学网—预测加工视角下的AI幻觉:本质、机制与治理


速读:其次,实现预测误差最小化; [[viii]]我们知道,现在主流的大语言模型是通过大规模的语料库来学习,在参数空间中构建一个概率分布。 PP认为,大脑是一台预测机器,它不断生成内部信号来预测外界,通过反馈将预测误差最小化(predictionerrorminimization),实现人类成功的感知、行动、学习。
预测加工视角下的AI幻觉:本质、机制与治理 精选

已有 183 次阅读

2026-4-17 13:49

| 系统分类: 人文社科

deep-learning-illustration-generative-ai-scaled.jpg

预测加工视角下的AI幻觉:本质、机制与治理

1、叶菲楠 2、李侠 [1]

( 1 、 2 上海交通大学 科学史与科学文化研究院 上海 200240 )

摘 要: 以大语言模型为代表的人工智能频繁出现编造虚假事实的现象被称作AI幻觉。通过考察可以发现AI幻觉具有如下特征:非意向性、非具身性与结构复制性。AI幻觉本质上是人类知识的“认知投影”,与数据过度拟合和缺乏实时环境反馈密切相关。根据预测加工理论对人-机幻觉的对比发现,AI幻觉产生的机制来自模型内部的熵增、过度拟合而缺少外部反馈和具身交互。通过对AI幻觉的本质与产生机制的分析,可以发现最大限度上消除AI幻觉有三种路径:首先,克服内部熵增;其次,实现预测误差最小化;最后,实现具身交互。

关键词: AI幻觉;预测加工;具身交互;预测误差最小化;熵增

在人工智能时代,随着诸多大语言模型( LLM ,如 GPT 、 Deepseek 等)的纷纷涌现,大语言模型开始频繁出现错误输出,人们把这种现象称为“ AI 幻觉”( Artificial intelligence hallucination , AI hallucination )。众所周知,人类出现幻觉通常意味着出现精神障碍(如精神分裂症),这是一种很严重的精神疾病,同理,如果 AI 出现幻觉,其危害比个人出现精神障碍对社会造成的影响更大,毕竟以大语言模型为代表的 AI 拥有数量庞大的潜在用户,他们都将受到 AI 幻觉的影响。信息科学将 AI 幻觉看作模型生成不符合预期或者虚假的结果,对这种新生现象亟须在哲学层面给出它的本体论和认识论解释。因此,本文尝试解决如下三个问题,首先,利用预测加工理论( predictive processing theory ,以下简称 PP )的分层编码预测和自由能原则揭示 AI 幻觉的产生机制;其次,揭示 AI 幻觉与人类认知的本质差异以及 AI 幻觉可能引发的风险;第三,通过对 AI 幻觉产生机制与本质的分析,揭示其对传统认识论带来的挑战与机遇。

一、 AI 幻觉现象的产生与扩散 在谈论 AI 幻觉之前,首先要澄清“幻觉”概念的由来。幻觉( hallucination )在医学上指我们在没有外部刺激的情况下产生的虚假感知。 [ [i] ] 它不是梦境、想象和错觉( illusion ), [2] 它是主体在清醒状态下感知到的生动形象之现象。日常生活中的幻觉大多是在医学和心理学层面上被讨论,本文主要从哲学认识论的角度来探讨幻觉现象的本质。哲学史上著名的“笛卡尔恶魔”问题就是现代幻觉的一种表现形式,即一个全能的恶魔构造了我们拥有的一切感官知识,这不禁让我们怀疑整个感官世界的真实性 [ [ii] ] 。笛卡尔在《第一哲学沉思录》中明确指出,幻觉就是欺骗感官的极端表现,幻觉因此也就成了认识论问题:自我确定性是否高于外部现实?毕竟我们无法确定外部世界是否存在,而唯一能凭借的就是自身感官。到了胡塞尔那里,由于他更关注意识的内部结构,幻觉也因此被赋予了完整的意向性的结构。他认为,虽然幻觉并没有指向一个具体的对象,但在意识中,它确实“关于”某种东西。 [ [iii] ] 与笛卡尔明显不同的地方在于,胡塞尔一定程度上承认了幻觉的“实在性”,尽管是在意识中。或许对于人而言,幻觉并不是意识的断裂,而是意识的某种特殊形式。梅洛 - 庞蒂为幻觉加入了身体的维度,他认为:幻觉是感知可能性的极限状态,是身体朝向世界开放后,感官的无限放大。 [ [iv] ] 换言之,幻觉本身嵌在主体与世界的整体结构之中,由身体与环境的持续互动形成,是能动的身体在世界中的主动探索,是具身反馈机制受到干扰时产生的现象。笛卡尔、胡塞尔、梅洛 - 庞蒂对幻觉的讨论从感官欺骗到意识内部的意向性结构的扭曲,再到身体与世界交互的异常,揭示了幻觉在三个维度上的表现。奥德丽( Audre Jean Brokes )精妙总结了此等变化:幻觉不仅是认知内部结构,更是主体间性、具身反馈、意义生成过程交织的产物。 [ [v] ]

人可以在缺乏感官输入的情况下产生虚假的感知并形成幻觉(如精神分裂症患者),这是精神病学与心理学领域非常难以处理的问题,然而遗憾的是这种虚假感知正在从人类向人类的制造物人工智能领域扩展,即 AI 在特定信息与数据的训练之下也会产生虚假信息,这种在场的新型幻觉是人类以往从未经历过的,其造成的影响远比人类个体的幻觉要严重得多,那么, AI 的幻觉是怎么产生的呢?

在自然语言处理( NLP )研究中,阿什等学者( Ashish Mittal )把 AI 幻觉的概念细分为两类:一是内在幻觉( Intrinsic Hallucination ),指在内部, AI 模型完全误解了输入的信息,如把图表中的增长趋势说成下降趋势;二是外在幻觉( Extrinsic Hallucination ),指虚假生成的数据或事实,而这些根本无法得到外部证实。 [ [vi] ] 无论是在内部还是外部的幻觉,它们都是基于 AI 模型对训练数据的统计和预测而得到的。 [ [vii] ] 回顾之前关于幻觉的三个维度的表现,当我们把本该用在人身上的“幻觉”嫁接到 AI 身上,自然会产生一种疑问:难道 AI 也有意识的内部结构,也会像人这般与环境有具身交互作用?幻觉之于 AI 的意义是否等同于幻觉之于人的意义?马莱基( Maleki S )部分解答了这两个问题。他把 AI 幻觉的生成归结为两个因素:一是大模型对数据的过度拟合,二是大模型缺乏与外在环境的实时交互的反馈。 [ [viii] ] 我们知道,现在主流的大语言模型是通过大规模的语料库来学习,在参数空间中构建一个概率分布。 [ [ix] ] 当我们询问 AI 某个问题时,它就会在此空间中搜寻、采样、优化数据,然后反馈给我们。但数据本身来自人类的知识库,存在噪声、错误、偏差等缺陷,在缺少正确数据时,模型就会进行错误甚至虚假的回答, AI 的强大就在于算法、算力与数据的结合,如果前两者的进步快于数据的增加量时,人类的数据已经无法满足 AI 的需求(当下最强大的 AI 已经学会了人类已有的所有知识), AI 甚至开始学习自产自销的数据,而这些 AI 的自产数据对于我们而言就是一个黑箱。从 AI 产生信息的过程来看,它看不着、听不见,也无法理解世界,最多只能是在数据层面对语言 / 数据进行映射、重组,因此与人的幻觉产生机制有很大的不同。

至此,可以大致总结出 AI 幻觉的三个特点:一是非意向性。意向性是意识的特征,是一种指向性和关于性,作为大数据的 AI 不可能拥有“关于某物”的意向性。二是非具身性。人的身体有感觉、知觉、运动系统,与环境相互作用,人通过身体在情境中认识世界。 AI 无身,自然不会有具身性,无法在环境中交互,通过身体反馈来修正误差,因此其幻觉也没有具身性(对于人类而言,幻觉会引发强烈的情感反应,与之相对, AI 则不会对幻觉产生具体的相关反应)。三是结构复制性。 AI 模型的知识来源是人类的知识库。 AI 用算法来提取其中的数据,由于数据的偏差、算法的失误和内部系统的熵增,出现结论错误的幻觉现象。所以 AI 幻觉其实是复制了人类知识的结构,是对人类认知的镜像化表达,更像是“认知投影”( cognition projection )。为了揭示 AI 幻觉的实质,可以利用目前比较成熟的预测加工理论来解释 AI 幻觉的产生机制,同时也能为理解人类的认知提供一种逆向视角。

二、预测加工理论在人工智能中的应用 预测加工理论是近十年来在认知科学、脑科学、心智哲学等交叉领域出现的一种异常火热的新认知理论,追本溯源可知它的提出和发展经过了一个漫长的过程。该理论最早可追溯到 1860 年亥姆霍兹( Hermann von Helmholtz )提出的无意识推论,是指人们会无意识地解释接收到的外部信息,让信息变得可以理解。 1999 年,拉奥( Rao )和巴拉德 ( Ballard )提出了预测编码理论( predictive coding theory ),认为大脑自上而下地分层预测。弗里斯顿( Karl J. Friston )提出了自由能原理( free energy principle ),认为大脑通过最小化预测误差(即预测与实际感官输入的差异)来优化对世界的表征。他将大脑视为一个贝叶斯推断系统,通过自上而下的预测和自下而上的误差修正,实现高效的信息处理,将 PP 扩展为感知、行动和学习的统一模型。 [ 12 ] 克拉克( Andy Clark )则从哲学和认知科学的角度,强调 PP 的“主动推理”机制,认为大脑通过预测和误差最小化动态调整对环境的理解,解释了注意、意识等现象。 [ 11 ] 他们的工作使 PP 从单纯的知觉理论演变为涵盖感知、认知、行动和学习的大一统心智框架。

PP 认为,大脑是一台预测机器,它不断生成内部信号来预测外界,通过反馈将预测误差最小化( prediction error minimization ),实现人类成功的感知、行动、学习。 [ [x] ] 弗里斯顿提出了自由能原理( Free Energy Principle, FEP ),认为所有的自组织(包括人和机器)都要减少预测误差(或者说,减少熵增)来维持内稳态。 [ [xi] ] 我们的呼吸、进食,以及免疫细胞每一次对抗病原体,都是在减少体内的预测误差,才能维持生命体的生存。 PP 提出了一个通用原则:感知即预测,行动即优化。大脑会构建一个层级生成模型( Hierarchical Generative Model, HGM ),从上到下一层层地产生预测信号。同时接收感官输入信号,不断与预测信号进行比对,若不一致,就产生了预测误差。发现误差后,大脑便有两种做法,要么改变预测信号以符合输入信号,要么改变行动让输入信号符合预测信号,以此来消除预测误差。比如我们看到墙上的一个黑点,输入信号“墙上黑点”,心中认为是一只虫,输出预测信号“黑点是虫”,但不确定,便要走近些收集更多感官信息。越走越近后,发现竟是个油漆斑点,新的输入信号“油漆斑点”。这时原先的预测“黑点是虫”便是错的,修正成了新的预测“黑点是油漆斑点”。经过这么一套预测的流程,大脑获知了真实的信息,也修正了内部模型。就如安迪·克拉克( Andy Clark )说的:“生成模型提出感觉预测来模拟和参与世界……预测误差最小化是感知和行动的基础。” [ [xii] ]PP 实际上就是让我们尽可能达到内部与外部的一致,让内部系统接近外部的真实环境,也是减少熵增或自由能的体现。 [ [xiii] ]

PP 在心智理论中所具有的颠覆意义,主要在于它挑战了传统的表征主义认知观。表征主义认为,我们心智对外界的表征(意念、概念及其他心理内容)是真实存在的,我们通过表征来接触外在。 [3] [ [xiv] ] 萨加德( P. Thagard )指出:“大多数认知科学家都同意,人类脑海中的知识是由心智表征所构成”。 [ [xv] ] 但是 PP 并不是被动接收外在信息,而是主动预测,在与外界的交互中各层级形成新的预测,这与表征主义完全不同。尽管如此, PP 也面临着一些质疑。比如,它是否能够真正解释意识的主观体验? PP 是否只适用于生物系统,还是也可以推广到人工系统?对此,有学者认为 PP 不能解释主观意识。因为它虽然揭示了认知系统的运作,但未能触及意识的本质问题。 [ [xvi] ] 换言之,它可以解释“如何认知”,但难以回答“为何会有意识”。

PP 因与人工智能特别是大语言模型的兼容而得到机器学习领域学者的支持。西里亚( Alejandra Ciria )等人指出:“生物体的自上而下 / 自下而上交互与反向传播的前向 / 反向传递结构相似。” [ 17 ] 而 PP 正是自上而下的层级传播,其结果和反向传播类似。托马斯·萨尔瓦托里( Tommaso Salvatori )等学者系统综述了 PP 在机器智能中的应用。在监督学习上,以前电脑通过反向传播( Backpropagation )学习,需要从输出层一路倒推错误到输入层,调整所有参数(就像老师批改试卷后告诉学生每一题错在哪),现在只用几步:先生成预测,再对比真实输入,算出误差,然后只调整与误差相关的神经元就行了。比如,教小孩认数字“ 3 ”,他错认成了“ 8 ”,以前的电脑要从头到尾解释整个“ 3 ”要怎么写,现在只需要指着少画的半圆对他说:“ 8 的这里还多了一半的圆。” [ [xvii] ] 奥德( Oord )等人认为可以把 PP 的层级预测编码方法运用在无监督学习上。之前的机器学习只适用于特定任务,无法泛化。但用了预测编码后,无监督学习就可以预测未来的、上下文的特征以至预测问题,然后用得到的反馈再用于学习。 [ [xviii] ]

在大语言模型上,托马斯认为,传统的 GPT 只看左右相邻的几个词,但根据 PP 的分层预测,低层网络预测邻近的词(比如下一个词是“苹果”),高层网络预测更远的词(整句话在讨论“水果健康”)。如果后面出现了“苹果手机”,高层网络就会修正之前的“水果健康”的预测,逐级向下传递误差。类比于人类,便像语文中的全局的阅读理解,而不是单项填空题。 [ 19 ] 夏洛特( Charlotte Caucheteux )的研究也证实了这一点。他把 PP 用于 GPT 大语言模型的优化上,分析 304 名受试者在听短篇故事时的 fMRI 数据,发现大脑通过分层的多时间尺度预测来优化语言处理:低阶区域处理短程局部特征,高阶区域整合长程语境。前额叶皮层负责高阶的抽象语义,颞叶处理具体的单个词汇。以 GPT 为代表的 LLM 只关注了相近的单词,却不能像人脑这样,用多层级预测来解决问题。 AI 如今还做不到像人类大脑这样的多尺度预测,但 PP 为 AI 和人脑之间鸿沟的弥补提供了一种思路。 [ [xix] ] 在算法方面, PP 就像一个不断预测并修正的智能猜谜机器,先从自己的知识库中生成预测,第二步计算误差,与真实答案比对,最后更新模型。与传统算法把所有错误一起改的方法相比, PP 只改关键的少数错误,更加省时省力且能灵活调整。斯普拉特林( M. W. Spratling )专门从神经生物学的角度对比了 PP 和不同传统算法的优劣, PP 的自由能模型不仅适用于人,也适用于机器,计算-生物达成了一致性。 [ [xx] ]

三、 AI 幻觉的预测加工机制及本质 PP 既然能运用于人类大脑和人工智能,我们也可以将其用于解释 AI 幻觉。前面提到 AI 幻觉的三个特征:非意向性、非具身性和结构复制性。而 PP 的核心特征有几个:自由能原理、主动推理、层级预测、贝叶斯定理等。从 PP 的分层预测编码的机制就能推测出,幻觉是由于大脑的先验预测太强,外部输入信号被忽略,预测误差并没有最小化(反而可能是最大化),直接将先验预测当作最后的真相输出而产生的。那么 AI 幻觉,也可以用同样的思路来分析。

先来看 PP 对幻觉的解释。幻觉可以看作内部先验预测和外部输入不符,而预测误差也没有被检测出来,错误的先验预测直接被接收的结果。 [ [xxi] ] 当先验预测过于强烈、感官证据过于微弱时,系统就会产生“强先验压制现实”的现象——这正是精神分裂症患者出现幻听、幻视的原因。 [ [xxii] ] 既然先验信念压过了现实,那是否会有其他感官帮忙协调?并没有,因为幻觉患者出现了跨感官的失配,意味着视觉、听觉、嗅觉的协作失效。在出现幻觉时,人们总是想确认是不是现实,这就面临纠错机制。一般而言,若是看到奇怪的幻觉,比如吃了毒蘑菇看到仙女小人,我们会伸出双手试图触摸,或者走过去闻、看。这正是 PP 的主动推理,即用行动来更新原有的预测。若是走近了发现什么也摸不到,那就是幻觉而不是真相。如果怎么也摸不到小人,但眼睛却始终能看到小人,大脑就无法消除预测误差,也就是自由能最小化(或预测误差最小化)失败。从以上的五个环节可以看到,人类幻觉的核心是强先验压制感官输入;多模态整合失败,也即跨感官的预测失配;纠错机制,也就是行动导向的预测更新失败;数学表达(贝叶斯定理)上,自由能最小化也失败了。因此在哲学意义上说,幻觉源于预测与行动的脱节。

反观 AI 幻觉,它是 AI 对输入信息作出的错误推理判断,但又没有外部环境的反馈。在 PP 看来, AI 的先验信念来自它的语料库,它只能从语料库中搜索符合用户输入字符的信息,在它自身不知道输入字符对错的前提下,内部熵增,外部又没有有效反馈(相当于负熵),就有可能生成错误的信息。正应验了马莱基说的 AI 幻觉的成因, AI 会对数据过度拟合和缺乏环境的实时交互。这也与哥德尔不完备定理( Gödel's incompleteness theorems )呼应。哥德尔不完备定理认为,一个系统的公理的对错无法在该系统内部被证明,总存在无法被系统证明的命题。 [ [xxiii] ] 这也意味着,若想证明一条命题,必须依赖最初的假设,而不是外部的基本事实。 LLM 再完备,也无法在内部证明自身的对错。前文提及的 AI 幻觉的三个特征之一——非意向性也对应着这一点。 AI 不能“关于某物”,因为它不知道外在的客观事实,所有决策的基础都是内部的数据基于特定算法做出的。这其实也是大模型的特点,任何大模型都是一个复杂系统,而非有意识、情感的生命体。

除了模型过度拟合数据, AI 幻觉还会在跨模态生成上发生错误。多模态类似人的视觉、听觉、嗅觉,是指 AI 的文本、图片、音频、视频等多个数据源。如果 AI 从某个图片的单个角度难以辨认这是什么,但有对应的音频、视频, AI 就可以判断出图片的内容。自动驾驶的汽车在昏暗的路灯下难以辨别行人,但如果有雷达、 GPS ,它就能识别出行人。正如人类结合多感官来感知和行动, AI 也可以结合多模态来决策。多模态 AI 是如何运作的呢?它先是从各种模态中收集数据,提取特征,转换成数字,然后将来自各种模态的数据对齐,确保它们反映的是相同的事实,最终融合几种模态,输出决策。在这个过程中,最开始的收集、提取数据正是 PP 机制中的先验信念的形成。若是无法将几种模态的数据对齐,便会发生 AI 幻觉,由此可知,由于多模态的特点造成 AI 幻觉的概率是非常大的。

相较于人类能用行动调整预测误差, AI 却不能做到这一点,因为它缺乏真实的具身交互。 1950 年,图灵在他的论文“ Computing Machinery and Intelligence ”中首次提出了具身智能的概念。 [ [xxiv] ] 具身人工智能( embodied AI, EAI )于是在最近二十年来成为 AI 领域的热门概念。 [4] EAI 是指像人一样与环境交互、感知,自主计划、行动的机器人。具身指的不只是身体,还有用身体体验的能力。与之相反的是非具身人工智能( disembodied AI,DAI ), DAI 无需拥有身体或物理交互,专注抽象的算法开发,已经实现了下棋、写作、画图等一系列成为社会热点的创造性活动。 DAI 即使有超凡的头脑,也不能完成倒一杯水、走下楼梯这样对人类来说轻而易举的事。已有学者指出, DAI 缺乏仿真-现实的生态系统,导致模型在真实生活中的泛化能力缺失。 [ [xxv] ] 杜安( Duan )等人认为 AI 必须实现从 DAI (静态数据学习)向 EAI (与环境交互学习)的范式转变,利用预测误差作为内在奖励以激发 EAI 的好奇心。如今的挑战是 AI 难以与物理真实融合,在设备上看,缺少同时支持真实扫描场景与高级物理实在的模拟器。但他还是很乐观地认为,未来 EAI 的突破关键在于跨模态学习和物理真实。 [ [xxvi] ] 普法伊弗( Pfeifer )等人也支持具身性( Embodiment )是智能研究的范式革命,现有的 DAI 产生的幻觉概率大大超过 EAI 。 [ [xxvii] ] 这是由于 EAI 比实现 DAI 拥有更多的交互反馈渠道。

在数学表达上, AI 幻觉是由于模型的泛化能力不足,泛化能力是过度拟合的直接表现,指 AI 对没见过的数据的预测能力。在面对旧数据时, AI 尚可以分析数据,但面对未知的数据,却无法推理,这就是泛化能力不足。泛化能力要求 AI 拥有捕捉数据中规律的能力,如给出一张猫的图片,要能理解猫的本质特征(耳朵、脸的形状,瞳孔和毛发等),而不是依赖特定的图片像素和颜色的参数。总之, AI 幻觉是模型与真实的世界脱节。笔者将上述五个方面关系图示如下,见图 1 。

图1.jpg

图 1 PP 视角下的人类幻觉和 AI 幻觉五个维度比较

将我们之前总结出的 AI 幻觉三大特征结合 PP 视角下与人类幻觉相比的五大特征,可以看到这些特征之间各有联系,如图 2 所示。模型与真实分布的失配,对应于非意向性和非具身性,非意向性是无法指向对应的真实分布,非具身性是无法将内部模型与外部输入进行验证。概率模型过度拟合,对应于非意向性和结构复制性,过度拟合体现的是模型内部的熵增,仍无外在实体,结构复制性体现的是 AI 参照的乃是人类已有的知识库。缺乏具身交互自然对应非具身性。跨模态生成错误和泛化能力不足,都是因为 AI 无法从已有的旧数据中找出普遍规律,缺乏对新事物的预测能力,也不能通过多种数据形式(模态)进行多重验证。

图2.jpg

图 2 AI 幻觉特征的相互关系

四、 AI 幻觉及其可能的治理路径 以预测加工理论来解释 AI 幻觉的尝试能更清晰地呈现 AI 在认识主体、认识对象、认识过程方面的特殊性,并揭示出 AI 与人类大脑之间的联系和区别,同时也提示我们从技术方面解释 AI 幻觉,难以触及 AI 的本质, AI 幻觉从一个侧面为我们更深入理解人类的认知过程提供了一个新的视角。克服内部熵增是 AI 与人类的共同目标。

自由能原则已揭示了任何生物或人工物的最终目标是减少体内的自由能(熵增)。熵增是系统从有序到无序、从整齐到混乱的自然过程。万物生存的趋势是从无序到有序,抵抗熵增, AI 也是一样。 AI 在面对杂乱无序的数据集时,便要努力清洗、筛选数据,以标记特征,让它们变得有序,从而减少熵增。佛罗里迪( Floridi )在信息论中表达了类似的看法:信息生态系统中的每个信息体( inforg )都依赖于信息的流动与代谢来维持其稳定性。 [ [xxviii] ] 贝特森( Gregory Bateson )提出的“精神生态系统”也是这个意思,信息必须在动态交互中保持平衡,否则就会出现“模式崩溃”或“意义断裂”。 [ [xxix] ]AI 幻觉的出现,正是因为 AI 作为认识主体出现了内部熵增,在一个封闭的系统内,信息开始出现变形,导致输出信息出现错误,这就是 AI 幻觉的本质。

要想消除 AI 幻觉,只着眼于优化参数或清洗数据,是远远不够的,还要关注 AI 本身是否有足够的开放能力,通过优质信息的输入破除自身的熵增过程。那么可否从人类身上寻找启发呢?布卡洛夫( Bukalov ) 2024 年提出的 FIM ( Functions of Information Metabolism )模型正揭示了这点。 FIM 把人类心理划分为八个功能模块,有诸如负责计算的算法逻辑、负责符号关系的结构逻辑、负责规划的时间直觉等等,不同模块协作来进行感知和认知。 [ [xxx] ] 正因为有这些模块的协作,人类心智才能保持开放,抵制熵增。 AI 与人类相比,少了好几个机制,最主要的是价值排序的机制,即选择何为轻重缓急。在同时面对两个不同轻重的任务时,如小孩落水和捡垃圾时, AI 会选择眼前容易做的任务(捡垃圾),而不是很有可能失败的任务(救小孩)。因为 AI 会从以前的数据库中调用经验,若以前没有做过救小孩的事,那么这一次它也不会去做。而捡垃圾是以前做过很多次(有先验信念),成功概率高的事,所以它优先去捡垃圾。这里还折射出 AI 内部设置的伦理观与价值观出现不协调现象,在做出决策时是以“认知”的形式出现的,从这个意义上说,认知从来不是单纯的信息收集和计算,还包含了意义的建构、价值的选择等深层次的认知加工问题。

预测误差最小化是 AI 认识论中的关键问题。预测误差是 PP 的关键指标,是预测结果与先验信念的差距,减少预测误差就是减少自由能,是个体行动的目标。在 PP 理论看来,人类和 AI 都是用预测误差最小化来认识对象,人机共享相同的预测机制。人类幻觉的产生是因为先验信念太强压制了后验概率, AI 幻觉则是因为模型内部过度拟化数据(并无后验概率),如同衔尾蛇,能利用的数据只有自身的知识库,而且还没有泛化能力。布卡洛夫的 FIM 模型告诉我们人类之所以能纠错,是因为不同模块协作更新。更重要的是,人类能通过行动在环境中获取新的信息,如今的 AI 面临的优质信息越来越少,在日益强大的算力加持下,已接近人类数据的极限,甚至出现了 AI 利用自产的信息重复作为输入生产新的信息,无数次迭代这些信息的质量处于无法保证、甚至无法鉴别的状态。仅就当下而言, AI 处理一次对话时,若不对结果进行多次验证和更新,就容易产生黑箱式的 AI 幻觉。 AI 虽能处理邻近词语,但对复杂的长文本输出还是多有纰漏,这时就需要用多时间尺度与多层次表征的层级预测来帮助它。 [ 20 ] 对于人类来说,分层预测中的高级预测主要处于前额叶皮层,负责更长、更高阶的语境,可以解决上述“救小孩还是捡垃圾”的问题。而对于 AI 来说,这个过程仍处于黑箱状态, AI 幻觉的现象才是刚刚开始,未来会有更多的幻觉问题产生。

具身交互是 AI 的最佳发展路径。 AI 在复杂物理环境中缺乏感知-行动的协同合作能力,这指的就是具身交互的能力。 PP 为人类心智提出一个“感知-行动”的循环,在 AI 上,这个循环可以扩展为“感知-建模-规划-行动”( SMPA )。 [ [xxxi] ]SMPA 是 DAI 的核心框架,系统先是用传感器获取数据,再基于知识库构建一个关于环境的内在模型,然后基于目标推理生成行动的序列(算法),最后通过行动影响环境并进入下一个循环。但这样的话,高层抽象的认知与低层感知就分离了,一切依赖于句法规则,没有身体的介入。 EAI 主张具身性,身体和认知是一个整体,身体-认知-环境进行耦合,可以直接感知和行动。但 SMPA 也有优点,借助 PP 的自上而下的分层编码预测和自下而上的预测误差最小化,将一个大的规划目标问题分解成各个小的层级子问题。当将 PP 与具身性相结合,我们能看到 AI 在分层符号规划和具身性之间或许不应该是二选一,而应该将两者结合,实现既有理性规划又有具身交互的高级 EAI ,这可能才是未来 AI 的方向,也才是从根本上最大限度消除 AI 幻觉的可行路径。

结语 精神病学家沃恩•贝尔( Vaughan bell )在谈到幻觉的诊断时曾指出:“虽然把幻觉作为‘缺乏感官刺激的感觉’来分类可能是精神病学中一个最简明的定义,但是这不能全面涵盖幻觉的含义及解释我们易感知到的知觉扭曲。” [ [xxxii] ] 对于人类的幻觉已有多年研究,目前尚无彻底的解决办法,如果说人类的幻觉可以在很深的层次上影响人对世界的理解,那么新出现的 AI 幻觉对于人类经验与人类社会而言则更是全新事物,而且一旦 AI 幻觉泛滥,它所带来的危害远远超过个体精神分裂症患者带来的危害。我们无法鉴别 AI 输出的信息,并以此为真,那么整个社会的认知将被 AI 幻觉严重误导,那是很可怕的事情。

回到最基础层面, AI 幻觉的本质是模型与真实世界的脱节,表现为非意向性、非具身性和结构复制性。预测加工理论( PP )为我们认识 AI 幻觉提供了新的本体论视角, 在产生机制上, AI 由于其内部封闭系统的熵增和缺乏与环境的交互,由此产生幻觉问题通过对 AI 幻觉本质的揭示,有助于我们更深刻地理解 AI 的局限性,从而为改进 AI 和 LLM 提供一种有益的视角,即便回到实践层面,在 AI 国际竞争日趋激烈的当下,哪个国家能够最大限度上消除 AI 幻觉现象,它就率先占领市场,并在这轮竞争中获胜。回到理论层面,对 AI 幻觉问题的研究可以提升哲学认识论和信息科学的跨学科融合。

[1] 作者简介:叶菲楠( 1997- )女,浙江省温州人,博士研究生,研究方向为科学思想史。 E-mail: 121000213021@sjtu.edu.cn 。李侠( 1967 —)男,辽宁省辽阳人,博士,教授,研究方向为科学哲学。 E-mail: lixia001@sjtu.edu.cn. (通讯作者) . 本文由中国教育部人文社会科学重点研究基地项目“交叉科学引发的范式融合问题研究”( 22JJD720015 )项目资助。

[2] 错觉是对真实情况的扭曲和误解,而幻觉是不基于真实情况产生的。关于错觉和幻觉的区别,不是本文的主要核心,因此不予讨论。

[3] 关于 PP 中是否有表征主义,学界尚在讨论,并不是本文重点。

[4] Chrisley 在 2003 年的论文“ Embodied Artificial Intelligence ”指出, EAI 的提出是为了反驳经典符号 AI ( GOFAI ),但并没有说明身体对于 AI 是否是必要。

[ [i] ] Teeple R C, Caplan J P, Stern T A. Visual hallucinations: differential diagnosis and treatment[J]. Prim Care Companion J Clin Psychiatry, 2009, 11(1):26-32. DOI:10.4088/pcc.08r00673.

[ [ii] ] 笛卡尔 . 第一哲学沉思录 [M]. 郦莉 , 译 . 北京 : 商务印书馆 , 2021:23.

[ [iii] ] Husserl E. Ideas Pertaining to a Pure Phenomenology and to a Phenomenological Philosophy[M]. Kersten F, trans. The Hague:Nijhoff, 1983:243.

[ [iv] ] Parnas J, Yttri J-E, Urfer-Parnas A. Phenomenology of Auditory Verbal Hallucination in Schizophrenia: An Erroneous Perception or Something Else?[J]. Schizophrenia Research, 2024, 265:83-88.

[ [v] ] Brokes A J. The Argument from Illusion Reconsidered[J]. Disputatio, 2000, 1(10).

[ [vi] ] Mittal A, Murthy R, et al. Towards Understanding and Mitigating the Hallucinations in NLP and Speech[C]//Proceedings of the 7th Joint International Conference on Data Science & Management of Data. 2024.

[ [vii] ] Liu Z, Kou J, Zhang W, et al. Comprehensive Evaluation of AI Hallucination and Novel UV-Oriented Framework toward Safe and Trustworthy AI[C]//2024 7th International Conference on Universal Village (UV). IEEE, 2024: 1-136.

[ [viii] ] Maleki N, Padmanabhan B, Dutta K. AI hallucinations: a misnomer worth clarifying[C]//2024 IEEE conference on artificial intelligence (CAI). IEEE, 2024: 133-138.

[ [ix] ] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.

[ [x] ]Clark A. Surfing Uncertainty: Prediction, Action, and the Embodied Mind[M]. Oxford:Oxford University Press, 2016.

[ [xi] ] Friston K, Kiebel S. Predictive coding under the free-energy principle[J]. Philosophical transactions of the Royal Society B: Biological sciences, 2009, 364(1521): 1211-1221

[ [xii] ] Clark A. Embodied Prediction[C]//Metzinger T, Windt J M, eds. Open MIND. Frankfurt am Main:MIND Group, 2013.

[ [xiii] ] Bogot á J D. Can the predictive mind represent time?[J]. Phenomenology and Cognitive Science, 2023, 22:721-741.

[ [xiv] ] 关于 PP 中是否有表征主义,学界尚在讨论,并不是本文重点。

[ [xv] ] 保罗·萨加德 . 心智 - 认知科学导论 [M]. 上海 : 上海辞书出版社 , 2012.

[ [xvi] ] Ciria A, Schillaci G, Pezzulo G, et al. Predictive processing in cognitive robotics: a review[J]. Neural Computation, 2021, 33(5): 1402-1432.

[ [xvii] ]Salvatori T, Mali A, Buckley C L, et al. A Survey on Brain-Inspired Deep Learning via Predictive Coding[J]. arXiv preprint arXiv:2308.07870, 2023.

[ [xviii] ] Oord A, Li Y, Vinyals O. Representation learning with contrastive predictive coding[EB/OL]. (2018)[2025-07-29]. arXiv:1807.03748.

[ [xix] ] Caucheteux C, Gramfort A, King J-R. Evidence of a Predictive Coding Hierarchy in the Human Brain Listening to Speech[J]. Nature Human Behaviour, 2023, 7(3):430-441.

[ [xx] ] Spratling M W. A Review of Predictive Coding Algorithms[J]. Brain and Cognition, 2017, 112:92-97.

[ [xxi] ] Hohwy J, Seth A. Predictive processing as a systematic basis for identifying the neural correlates of consciousness[J]. Philosophy and the Mind Sciences, 2017, 8(3).

[ [xxii] ] 孙玉婷 , 周理乾 . 预测错误最小化与幻觉——论预测加工理论对幻觉问题的解决 [J]. 科学技术哲学研究 , 2024(2).

[ [xxiii] ] Gödel K. über formal unentscheidbare Sätze der Principia Mathematica und verwandter Systeme I[J]. Monatshefte f ü r Mathematik und Physik, 1931, 38:173-198.

[ [xxiv] ] Turing A M. Computing machinery and intelligence[J]. Mind, 1950, 49:433-460.

[ [xxv] ] Deitke M, Han W, Herrasti A, et al. Robothor: An open simulation-to-real embodied ai platform[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:3164-3174.

[ [xxvi] ] Duan J, Yu S, Tan H L, et al. A survey of embodied ai: From simulators to research tasks[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2022, 6(2):230-244.

[ [xxvii] ] Iida F, Pfeifer R, Steels L, et al. Embodied Artificial Intelligence[M]. Vol 3139. Lecture Notes in Computer Science. Berlin, Heidelberg:Springer Berlin Heidelberg, 2004. DOI:10.1007/b99075.

[ [xxviii] ] Floridi L. Information ethics[C]//The Cambridge Handbook of Information and Computer Ethics. 2010:77-99.

[ [xxix] ] Bateson G. Steps to an Ecology of Mind: Collected Essays in Anthropology, Psychiatry, Evolution, and Epistemology[M]. Chicago:University of Chicago Press, 2000.

[ [xxx] ] Bukalov. Problems of Development of Artificial Intelligence, its Errors and Hallucinations. Psychoinformational (Socionical) and Quantum Methods of their Elimination[J]. Artificial Intelligence, 2024(4):10. DOI:10.15407/jai2024.04.010.

[ [xxxi] ]Chrisley R. Embodied artificial intelligence[J]. Artificial intelligence, 2003, 149(1): 131-150.

[ [xxxii] ] Laroi F, Aleman A. 幻觉——治疗和应对手册 [M]. 李虹 , 等 , 译 . 北京 : 中国轻工业出版社 , 2012:393.

stuck-in-hallucination.jpg

【博主跋】这篇文章完成于2025年,那个学期小叶同学是我的《自辩》课助教,时间过得真快,转眼已经是2026年了,今年的春天也快过完了,好在文章总会让往事表征为鲜活的现在,前阵子托保宁博士把这篇文章投给了《科学与管理》杂志,今天课后在知网上看到网络版已经在知网上登出,合作愉快,是为记!

说明:文中图片来自网络,没有任何商业目的,仅供欣赏,特此致谢!

2026年4月17日于南方临屏涂鸦

转载本文请联系原作者获取授权,同时请注明本文来自李侠科学网博客。 链接地址: https://blog.sciencenet.cn/blog-829-1530825.html

上一篇: 莱恩说过的一句疯话

主题:AI幻觉|预测加工|具身交互|大语言模型|产生机制|预测加工视角下|机制与治理|预测加工理论|预测误差最小化