登录

科学网—AI替你做了你做不了的事,你敢签字吗?


速读:你的空间认知能力被外包出去了——方向感没有消失,但它在萎缩。 你用GPS导航,方向判断外包出去了,空间认知慢慢萎缩,等导航出错的时候你根本察觉不了。 这不是「懒得看路」,是外包出去的能力在萎缩,连核查导航是否正确的能力也跟着走了。 你用自己做不到的认知水平,去判断一份自己做不到的分析——这不是核查,这是盖章。 我的Zettelkasten实验暴露了这个悖论:AI发现的那种联系——你没想到的——恰恰是你无法核查的部分。
AI替你做了你做不了的事,你敢签字吗? 精选

已有 320 次阅读

2026-5-27 08:48

| 系统分类: 观点评述

上周组会上,一个学生汇报完开题方向调整,我脑子里突然冒出一句话:

AI 提供能力,但责任需要作者承担。这就是人机协同最大的张力。

这话不是我从哪本书里看来的,是在组会讨论中自己提炼出来的。当时大家聊到人机协同中的核查问题,聊着聊着,我突然意识到,整个问题的起点,其实是一个更根本的追问: 你把认知外包给 AI 的那一刻,就丧失了核查它的能力。

这不是态度问题 —— 不是你不够认真、不够负责。这是能力问题 —— 你根本查不了。

你想想看:你让 AI 帮你做了一份数据分析,它跑出来的结果你看了,觉得「嗯,挺合理的」。但「挺合理」是什么意思?意思是 它符合你的直觉预期 。而你的直觉预期,恰恰是你自己做不到、才让 AI 代劳的那部分认知的边界。你用自己做不到的认知水平,去判断一份自己做不到的分析——这不是核查,这是 盖章 。

更扎心的是,那个学生原本的开题方向是面向高 AI 素养人群的。组会上我提醒他:「你在好用的 AI 环境中待时间太长了,会忘掉普通人真实的认知水平。」他天天用 AI,觉得核查不难,觉得「仔细看看就行」。但我想说的是:我们这些人天天泡在 AI 环境里,对 AI 的输出模式已经很熟悉了,看到一份结果大概能判断哪里可能有问题。可普通人呢?他们拿到一份 AI 生成的报告,能做什么?

说实话,能做的很少。

你可能会觉得这是我个人对 AI 的过度警惕。但看看其他领域发生了什么 ——2009 年,土耳其航空一架航班在阿姆斯特丹降落时坠毁,9 人遇难。怎么回事呢?飞机的自动驾驶系统因为一个传感器故障,错误地判断飞机已经到达地面,自动进入了着陆拉平模式 —— 减速并拉起机头。当时有雾,飞行员难以目视判断真实高度,只能依赖仪表指示。系统说没问题,他们就信了。直到约 500 英尺处才发现速度过低,但已无力回天。飞行员不是不认真,他们是受过严格训练的职业飞行员。但自动化系统一旦给出信号,人的大脑就会下意识地选择最省力的路径:相信它。心理学上把这叫作「自动化偏见」( Parasuraman & Riley, 1997 )—— 不是态度问题,是认知结构问题。

飞行员尚且如此,普通人又能怎样?

AI 替你做了你自己做不了的事,然后让你签字负责——但你签字的依据,恰恰是你自己做不到的那部分认知。这不是协同,这是倒置。

困局 说到这里,你可能会觉得:那我就更仔细地查呗,多花点时间,总能查出来的。

但问题是 —— 这不是你一个人的问题,是一个结构性的困局。

什么叫结构性困局?就是你换个态度、换个方法,也解决不了的那种。因为问题的根不在你身上,而在人机协同这件事本身的构造里。

你想想看一个日常场景:你用 GPS 导航开到了一个陌生的地方。到了目的地,你关掉导航 —— 然后你知道怎么回去吗?

多数人不知道。GPS 替你做了方向判断,你跟着走就行,很方便。但方便的代价是什么?你的空间认知能力被外包出去了——方向感没有消失,但它在萎缩。Bohbot 等人的研究发现,GPS 使用越多的人,在没有 GPS 辅助时海马体依赖的空间记忆越差,而且 3 年后追踪发现下降更陡( Bohbot et al., 2020 )。这不是「懒得看路」,是 外包出去的能力在萎缩,连核查导航是否正确的能力也跟着走了 。

你看看,这个逻辑是不是和 AI 一模一样?你用 GPS 导航,方向判断外包出去了,空间认知慢慢萎缩,等导航出错的时候你根本察觉不了。你用 AI 做分析,认知判断外包出去了,核查能力慢慢萎缩,等 AI 出错的时候你也察觉不了。同一个结构,不同的领域。

我提醒学生那句话的时候,心里其实还有一层没说出来的意思: 你把认知外包出去的那一刻,外包的不只是某个具体能力,是整个认知链条。 从理解到记忆到判断到质疑——你不再自己理解,因为 AI 替你总结了;你不再自己记住,因为 AI 替你存了;你不再自己判断,因为 AI 替你分析了;你不再自己质疑,因为 AI 的输出看起来挺合理的。全链条外包。外包完了,你拿什么来核查?

更准确的说法不是「AI 让人变懒了」,而是: AI 可能迅速拉高一个人的输出能力,但不一定同步拉高他的判断能力。 这两件事,差别很大。输出能力,是你能不能给出一个看起来像样的方案、报告、诊断建议。而判断能力,则是你能不能知道这个方案的前提是什么,哪里可能错,遇到什么证据应该改主意。

AI 拉高了前者,但后者 —— 你得自己去培养、去打磨。而培养判断能力这件事,恰恰是你把认知外包出去之后就不再做的事。

这才是真正的困局:不是你不想查,是你查不了。不是你不够负责,是你负责的依据已经被外包走了。

误区 困局既然是结构性的,简单答案肯定不够。那常见的简单答案有哪些呢?

「让 AI 自己解释一下。」

这个直觉有合理之处。有解释当然比没解释好。AI 告诉你它是怎么推理的,你顺着它的逻辑走一遍,感觉挺有道理 —— 但「有解释」不等于「人能判断」。

打个比方:你请了一个厨师做了一道菜,厨师告诉你他用了什么食材、怎么调味、火候怎么掌握。食材清单拿到了,烹饪步骤也了解了 —— 但告诉你步骤,不等于让你能判断他每一步做得对不对。火候是不是过了?调味比例是不是合适?你不知道。因为你不会做饭,你只能看最终端上来的那盘菜,中间的过程你没法核查。

2024 年 Nature Scientific Reports 上发表了一项研究,5 个实验,1403 名参与者,核心发现是:让 AI 的预测更可解释, 并不能减少人们对错误建议的过度依赖 ( Cecil et al., 2024 )。解释可能让你更理解 AI 的推理——「它想得挺有道理的」——但理解它的推理和判断它的推理是否正确,是两件事。解释可能让你更依赖它,而不是更好地核查它。

托比·沃尔什在《机器行为学》( Machines Behaving Badly )中举过一个很锋利的例子:如果一个 AI 系统透明地向你解释,因为你是女性所以无法雇用你,这又有什么意义呢?透明地告诉你它怎么推理的,不等于让你有能力核查它的推理是否正确。 透明是信息披露,核查是能力匹配。 这两件事,差别很大。

你看,「更仔细地查」不行,「让 AI 解释」也不行——两种常见答案都默认了一个前提:你有核查能力,只是需要方法指导。但我们的核心困局恰恰是: 问题不在方法,在于能力-责任的系统性错配。 你有责任,但没有能力。方法解决不了能力问题——就像给一个不会做饭的人一本更详细的食谱,他还是判断不了每一步做得对不对。

转机 那么,出路在哪里?

既然能力不够是事实,那出路不是「把能力补上来」——那太慢了,而且你外包出去的能力还在萎缩。出路应该是: 降门槛。把核查的门槛降回到人的能力范围内。

这就是非对称式核查的核心思路。

什么叫非对称式核查?打个比方:美食家不会做饭,但能品鉴饭菜质量。守门员不需要踢球,只需要把好门。核查不需要重复全流程,只需要在关键节点做验算。

你看,美食家、守门员,他们做的事和生产者做的事是不对称的。厨师要掌握火候、刀工、食材搭配——这些是生产能力。美食家只需要判断:这道菜好不好吃,食材是否新鲜,调味是否合理。守门员不需要知道前锋怎么过人、中场怎么传球,他只需要判断:这个球该不该扑出去。 核查者的能力要求和生产者的能力要求,是不对称的。

这个逻辑其实在很多领域都有现实印证。食品安全抽检不需要检测所有食品,只需要在关键节点取样 —— 而且复检必须由不同机构执行,不能让生产者自己查自己。华为在信息核查上有个做法叫「非对称确认」:信管办和员工核查信息时,不跟员工自己核对,而是跟他的历任主管、前任副代表一一交叉验证(出自《华为没有秘密》)。核查方和被核查方信息不对称,但核查方通过交叉验证在关键节点把门。

回到 AI 场景。你让 AI 做了一份数据分析,你不需要自己手动重新跑一遍全流程 —— 你没有那个能力,也没有那个时间。但你可以在关键节点做验算:AI 用的数据源可靠吗?它的核心假设是什么?结论如果错了,最可能错在哪里?这些问题你不需要重复 AI 的计算,只需要用自己的判断力在几个关键位置验算一下 —— 验算通过了就过,通不过就停下来追问。

这就是守门人思维: 你不需要比 AI 更懂,你只需要在关键节点上有信心说「这个我认」或者「这个我不认」。

但如果你连关键节点也判断不了呢?这时候还有一个办法: 让另一个 AI 帮你把关。 不是让 AI 解释自己(我们已经知道解释不管用),而是让一个不同的 AI、用不同的逻辑、从不同的角度,在关键节点做交叉验证。就像食品安全抽检的复检必须由不同机构执行——核查者和生产者不能是同一个人。

当然,这里有一个必须守住的前提: 最终签字的必须是人。 AI 可以帮你降核查门槛,但判断、品味、责任——这三样不能交出去。守门员可以借助工具判断球的轨迹,但最终扑出去的那一下,必须是他自己的决定。

验证 说了这么多,我自己做到了吗?

坦白说,我正在做。组会上提炼出的那个核心张力 ——AI 提供能力,但责任需要作者承担 —— 一直在推着我往更深处想。让我说一个更具体的亲身经历。

前段时间, 我做了一个 AI 辅助的 Zettelkasten(卡片笔记法)冷启动实验 。我手上有 2000 多条笔记,想把它们做卡片化关联 —— 找到笔记之间的隐含联系,形成自底向上生长的知识网络。这个工作量巨大,我自己做不了,就让 AI 来做。

AI 确实做得很快。16 个小时,它帮我处理了 2000 多条笔记,做了关联和标签。但 16 个小时消耗了我一周 50% 的 token 额度——这意味着什么?意味着我不可能反复跑,不可能每次都从头核查。我必须在有限的资源内,在关键节点做验算。

我怎么验算的?说实话,我做到的比我想象的少。

笔记是自底向上生长的网状结构,没有分类 —— 所以不存在「分类是否自洽」的问题。笔记之间已经形成了一些聚簇 —— 语义相近的笔记自然聚在一起。但聚簇和聚簇之间的连接,AI 是随机抽出两张卡片,看它们之间能不能产生某种远程联系,从而把两个大的聚簇连起来。这种连接,你只能检验它给出的部分是否有道理,却不能判定「该有的联系是不是都有」—— 因为如果能判定,就不需要 AI 来帮你发现了。

我真正能做的,只有一件事: 看关联的方向对不对。 AI 告诉我笔记 A 和笔记 B 有联系,我不需要验证它怎么算出来的,只需要判断:这两个笔记真的有关系吗?我的领域知识能回答这个问题。大部分关联是对的,但确实有几处 AI 把不相关的笔记硬连在一起——表面上看有联系,但仔细一想其实不是一回事。这些错误,我在关键节点验算时发现了。

你看,这就是非对称式核查在真实场景中的运作。我没有重新跑全流程,也没有比 AI 更懂所有笔记之间的联系 ——2000 多条笔记,我不可能逐条记住。但我在几个关键位置有信心说「这个我认」或者「这个我不认」,这就够了。

当然,我也必须承认,这个实验让我更清楚地看到了非对称式核查的边界。首先,我的领域知识帮了我 —— 这些笔记是我自己写的,我对内容有判断力。换成别人的笔记,我的核查能力会大幅下降。其次,关键节点的选择本身需要经验 —— 你知道该在哪个位置验算,这本身就是一种判断能力,不是所有人一开始就有的。第三,有些连接你只能验证「给出的部分」,不能验证「遗漏的部分」——Serendipity 的价值恰恰在于它发现你没想到的联系,如果你能判断「哪里该有连接」,你就不需要 Serendipity 了。

但方向是对的。非对称式核查不需要你比 AI 更懂,只需要你在关键节点上有判断力。而关键节点的选择,是可以学习的 —— 就像美食家不是天生就会品鉴,他也需要训练。

讨论 非对称式核查降低了门槛,但不是把门槛降到零。你至少需要:知道这个领域的关键假设是什么,知道什么样的结果是「不合理的」,知道出了问题该往哪个方向追问。知道该在哪个位置验算,这本身就是一种判断能力。

那能力底线在哪里?

底线就是你能说清这几件事。说清了,你在核查 —— 你是协同者。说不清,你在认可 —— 你是委托者。

这就引出了我觉得最值得想清楚的一个区分: 协同和委托的界限。

真正好的协同,不要求人永远比 AI 更懂。人需要能确定价值目标,理解关键假设,识别失败条件,设置止损方案,并知道什么时候必须请更专业的人介入。如果这些问题你大体说得清,那可以继续谈协同。如果完全说不清,也不是不能用 AI。只是这时就要诚实一点:这不是协同,而是 委托 。

委托不是坏事 —— 你委托律师代理诉讼,委托会计师处理报税,这些都是正常的。但委托的前提是:你知道自己委托了,你承认自己在签字的位置上不是核查者,而是认可者。你不能假装自己在核查 —— 那就是盖章。

在委托的场景下,有两个具体问题值得注意。

第一个是 Serendipity 的悖论。我的 Zettelkasten 实验暴露了这个悖论:AI 发现的那种联系 —— 你没想到的 —— 恰恰是你无法核查的部分。你只能验证它给出的连接「是否有道理」,但不能验证「该有连接的地方是不是都有连接」。因为如果你能判断哪里该有连接,你就不需要 AI 来帮你发现了。

这意味着,AI 的输出其实分两种:一种是推理出来的——数据分析、方案设计、报告撰写,你可以通过关键节点验算来核查;另一种是发现出来的——新的联系、新的洞察,你没法用验算来核查,因为发现的本质就是「你没想到的」。对这种输出,核查的方式不是验算,而是 试用 。这个连接对我有用吗?能激发新的思考吗?有用就保留,没用就放过。这不是核查,是筛选——但筛选也是一种判断。

第二个是用 AI 核查 AI 的依赖循环。你说用 AI 解决 AI 挖下的坑 —— 让另一个 AI 帮你核查关键节点。但这个核查 AI 的输出,你也需要核查吗?如果需要,那是不是又回到了原来的困局?

不需要。因为核查 AI 的任务比生产 AI 的任务简单得多。生产 AI 需要完成全流程,核查 AI 只需要在关键节点做验算。核查的门槛比生产低,所以核查 AI 的输出更容易被人判断。你不需要再找第三个 AI 来核查第二个 AI—— 因为第二个 AI 做的事情,已经在你的能力范围内了。

这就好比:你不会做饭,对菜好不好吃也只能做个粗略判断 —— 太咸了能尝出来,但调味比例是不是最优,你说不清。你请了一个美食家帮你判断 —— 美食家的判断你能不能接受?能,因为美食家做的事情(品鉴)比厨师做的事情(烹饪)更接近你的能力范围。你不需要再找一个人来核查美食家。

小结 组会结束后,我在回去的路上一直在想一个问题:如果让我给今天用 AI 做事情的人一个建议,我会说什么?

我想,我会说: 先弄清楚你在哪个位置上。

你是核查者,还是委托者?如果你大体能说清关键假设是什么、什么样的结果是不合理的、出了问题往哪个方向追问 —— 那你是在协同,非对称式核查可以帮你降门槛。如果你完全说不清这些 —— 那你是在委托,诚实一点,承认自己是在认可而不是在核查。

然后, 在关键节点上验算一下。 不需要重复全流程,不需要比 AI 更懂。你只需要在几个关键位置有信心说「这个我认」或者「这个我不认」。验算通过了就过,通不过就停下来追问。关键节点的选择是可以学习的——就像美食家不是天生就会品鉴。

最后, 判断、品味、责任——这三样不能交出去。 AI 可以帮你降核查门槛,可以帮你做关键节点验算,可以帮你发现你没想到的联系。但最终签字的必须是你。守门员可以借助工具判断球的轨迹,但扑出去的那一下,必须是他自己的决定。

你看,人机协同最大的张力 ——AI 提供能力,但责任需要作者承担 —— 不是没有出路。出路不是把能力补上来(太慢),也不是更仔细地查(做不到),而是降门槛:把核查的门槛降回到人的能力范围内。守门人不需要踢球,只需要把好门。

但把好门的前提是:你得有能力判断这个球该不该扑出去。如果你连这都判断不了,那你就不是守门人,你只是站在球门前的人。

你觉得呢?你用 AI 做事情的时候,你是核查者还是委托者?欢迎把你的思考分享在留言区,咱们一起交流讨论。

如果你觉得本文有用,请 点击文章底部的「推荐到博客首页」按钮 。

如果本文可能对你的朋友有帮助,请 转发 给他们。

欢迎 关注 我的专栏 ,以便及时收到后续的更新内容。

延伸阅读 • AI 跑得太顺学生不自己思考了,怎么办?

• 还纠结他人作品「纯人工」还是掺了 AI ?你可能需要适应混合智能

• AI 应用蓬勃爆发,你的「护城河」足够宽吗?

• Claude Skill 快照:给你的 AI 技能迭代加个「后悔药」

• AI 比你懂太多时,还能「人机协同」吗?

转载本文请联系原作者获取授权,同时请注明本文来自王树义科学网博客。 链接地址: https://blog.sciencenet.cn/blog-377709-1536570.html

上一篇: 如何用 AI 帮你自动构建卡片笔记盒?

主题:问题|判断|认知水平|直觉预期