登录

图灵测试76年后首现AI通过实证:GPT-4.5以73%判定率超越真人,聊天15分钟难辨人机|加州大学圣地亚哥分校


速读:通讯作者卡梅伦·琼斯(CameronJones)表示:“我们发现,如果给出恰当的提示,先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感以及易错性。 研究人员在两组独立的参与者(加州大学圣地亚哥分校本科生和在线参与者)中进行了随机对照实验。 在四种大语言模型中,GPT-4.5有73%被判定为人类,这意味着“裁判”选择它为“人类”的频率显著高于选择真实人类参与者的频率。
图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人,聊天 15 分钟难辨人机

图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人,聊天 15 分钟难辨人机

2026年05月22日 09:2

IT之家 5 月 22 日消息,加州大学圣地亚哥分校的最新研究首次提供了实证数据,可证明现代 AI 系统能够通过经典的图灵测试。

在该测试中,机器需要学习人类并模仿人类对话,使人们无法稳定分辨人类与先进大语言模型之间的差异。

这项发表在《美国国家科学院院刊》上的研究,首次采用英国数学家、“计算机科学之父”艾伦 · 图灵于 1950 年设计的方法对大语言模型进行了严格测试。这也是首次有研究发现,在图灵测试的框架下,AI 模型被判定为人类的概率 / 频率与真人相当。

通讯作者卡梅伦 · 琼斯(Cameron Jones)表示:“我们发现,如果给出恰当的提示,先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感以及易错性。我们知道大语言模型能够轻松产生几乎任何主题的知识,但这项测试表明它们也能令人信服地展现社会行为特征,这对我们如何看待 AI 具有重大影响。”

在图灵测试中,一名参与者同时与另外两方(IT之家注:一方是真人,另一方是大语言模型)聊天,作为“审讯者 / 裁判”的人类需要判断哪一方是真人。

研究人员在两组独立的参与者(加州大学圣地亚哥分校本科生和在线参与者)中进行了随机对照实验。审讯者进行简短的文本对话后作出判断。

实验中,参与者与四种不同的大语言模型聊天,包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及上世纪 60 年代基于规则的经典聊天机器人 ELIZA 作为基线模型进行对比。

在四种大语言模型中,GPT-4.5 有 73% 被判定为人类,这意味着“裁判”选择它为“人类”的频率显著高于选择真实人类参与者的频率。

在相同提示下,LLaMa-3.1-405B 有 56% 被判定为人类,与被对比的真实人类在统计学上没有显著差异。基线系统的表现则差得多:ELIZA 和 GPT-4o 整体上分别只有约 23% 和 21% 被判断为人类。

研究合著者、加州大学圣地亚哥分校认知科学教授本 · 伯根(Ben Bergen)指出,图灵测试自诞生 76 年后需要被重新理解。

“图灵测试最初是用来询问机器能否与人类智能相匹敌。但现在我们知道 AI 能以比人类更快、更准确的方式回答许多问题,所以真正的问题不在于原始的计算能力。看到机器能够通过测试,以及它们如何通过测试,迫使我们重新思考测试衡量的究竟是什么。它越来越多地在衡量‘像人一样’的程度。”

每个大语言模型都被赋予了特定的“人格”提示,要求其采用特定的人类角色和沟通风格。Bergen 解释说,大语言模型获胜并不是通过展示知识的力量,而是因为它们会像人类一样犯错误。“这些特征并非图灵当时设想的那种数学和逻辑问题解决型智能。”

当然,提示词的作用至关重要。在没有明确指令的情况下,模型被误认为人类的概率大幅下降:GPT-4.5 的胜率降至 36%,LLaMa-3.1 降至 38%,而 ELIZA(23%)和 GPT-4o(21%)更低。

上述系统可在获得详细提示词描述后伪装成人类,但在没有指导的情况下却无法自主呈现出这些特征。Bergen 对此评论道:“它们有能力表现得像人,但可能不具备自行揣摩如何表现得像人的能力。”

研究结果对网络信任具有现实意义,尤其是在模型能够在长达 5 至 15 分钟的对话中成功伪装成人类的情况下。

Jones 表示:“相对容易就能让这些模型变得与人类难以区分。我们需要更加警惕,当与陌生人线上互动时,人们应该对自己能确定对方是真人而非大语言模型这件事降低信心。”他也指出了更深层的风险。“图灵测试对模型来说本质上是一场关于说谎的游戏。其中一个含义是,模型似乎非常擅长说谎。”

Bergen 补充说,无法分辨自己是在与人类还是机器人互动可能会产生严重后果。“有很多人希望利用机器人来说服人们分享他们的社保号码、为他们支持的政党投票或购买他们的产品。”

为了进行这项研究,研究人员构建了一个类似常用即时通讯应用的在线界面。审讯者需要在 5 分钟(在一项重复研究中为 15 分钟)的对话后决定哪一方是真人。为验证结果在不同人群中是否一致,研究分别招募了加州大学圣地亚哥分校的本科生以及通过 Prolific 平台招募的在线参与者,共有近 500 人参与了实验。

关键词 :

加州大学圣地亚哥分校

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

“不好看就退票”服务,能救电影院吗?

微信封禁自家“兄弟”红包,打的什么牌?

华住,比携程还会捞金?

雷军强烈建议大家现在就换手机:内存成本持续上涨 未来两年还会越来越贵

三星超越苹果 拿下手机满意度第一

抖音辟谣热搜传言!《给阿嬷的情书》2000万投流、秦腔直播因剧宣被封禁均不实

终于等到这一天!黄仁勋亲口承认 华为成功替代NVIDIA:CUDA再见了

美国连DUV都要禁卖!ASML CEO:越限制中国越加速自研、这是存亡问题

用科技重新定义旗舰:小鹏GX正式上市 限时权益价26.98万元起

部分青少年过度依赖AI值得关注

印度选美冠军不堪高额嫁妆上吊身亡 网友感慨女方嫁人竟要倒贴钱财

哈!AI先把年轻人给「炸裂」了

“9系身段 7系身价” 小鹏GX不给友商留活路

商务部确认将引进200架波音飞机:美国为中国提供充足发动机、零部件供应保障

南美足联呼吁下届世界杯扩至66队:世界杯应更具包容性

姐弟俩被狗咬 姐姐隐瞒患狂犬病去世:发病到死亡不足48小时

何小鹏:激光雷达是个好东西 但汽车已不需要它了

小米首款耳夹式耳机发布:IP57、单只耳机重 5.5g,首销 799 元

张雪夺冠赛车复刻版交车完成!张雪:赛季末将拍卖德比斯驾驶的53号真车和奖杯 捐给韩红基金

漳州“泡药杨梅”引发信任危机 果农直播道歉用户不买账:刻意博取同情

6G网要来了!中国率先布局 2030年或将正式迈入商用阶段

英伟达发财报:一季度营收816亿美元 今年CPU销售额达200亿美元!

比亚迪官宣:王楚然出任元PLUS代言人 新车今日上市

主题:大语言模型|图灵测试|GPT-4.5|加州大学圣地亚哥分校