登录

在AI彻底接管科研之前,我们和三位人类科研工作者聊了聊


速读:这释放了一个明确信号:AI正在重塑科研的基础设施、生产关系和评价逻辑。 1:20:15-01:30:04|AINative一代:科研人员将如何成长。 曾经,AI只是科研路上的辅助工具,而今,它正一步步重塑科研的基础设施、生产关系与评价逻辑,从实验执行到论文撰写,从科研训练到成果评价,科研的各个环节都因AI迎来新的可能与挑战。 如果AI科学家的能力能达到研究生或博士生水平,那它产出的科研成果可能会产生一种新的scalinglaw——AIagent的数量可以无限部署。 我们遇到了一个瓶颈:如何客观评估这些科研想法?
2026年04月09日 17:38

进入 2026 年, AI 对科研的渗透已远超辅助工具的范畴。  Nature  连续刊发两项研究:一是 AI 文献综述的引用准确率超过人类专家;二是 AI 机器人独立完成从构思、实验、写作到同行评议的全流程。这释放了一个明确信号: AI 正在重塑科研的基础设施、生产关系和评价逻辑。

当 AI 能独立完成从构思到实验、写作再到同行评议的科研全流程,当 AI 撰写的文献综述引用准确率超越人类专家,一场关于科研的深层变革已然到来。

曾经, AI 只是科研路上的辅助工具,而今,它正一步步重塑科研的基础设施、生产关系与评价逻辑,从实验执行到论文撰写,从科研训练到成果评价,科研的各个环节都因 AI 迎来新的可能与挑战。

与此同时,一个根本性问题浮出水面:当 AI 能提出假设、设计实验、分析数据甚至撰写论文,人类科学家的价值在哪里?科研训练、论文发表、学术评价体系将何去何从?我们花费数十年建立的科研训练体系、学术出版彻底颠覆掉?

为了深入探讨这些问题,本期 DeepTalk 邀请到三位前沿研究者:香港中文大学(深圳)副教授朱熹、多伦多大学博士张鹏松、芝加哥大学博士刘昊琨。围绕 AI 科学家的能力边界、科研论文的价值变迁、评价体系的未来走向,展开了一场深度对谈。

时间线

00:00-09:51|嘉宾介绍与开场

09:51-25:38|什么是 AI 科学家,对当前的冲击如何

25:38-33:52| AI 对基础科研能力训练的提升作用

33:52-52:00| AI 科学家的技术路线

52:00-1:09:17| AI 写论文是理解知识还是概率匹配?

1:09:17-1:13:33|同行评议的危机:顶会投稿量暴增与评审质量下滑

1:13:33-1:20:15|社交媒体 vs 传统期刊:科学传播的新媒介

1:20:15-01:30:04| AI Native 一代:科研人员将如何成长

01:30:04-01:38:39|学术出版的商业模式与 AI 影响的传播速度

01:38:39-01:52:21| AI 对科技评价体系的冲击

以下是对话正文:

DeepTech: 欢迎三位老师,请老师们先给大家做个自我介绍。

朱熹: 大家好,我是香港中文大学副教授朱熹。我的研究方向是人工智能和机器人技术,并通过机器与 AI 衔接,把一部分 AI 提出的科学思路进行实验执行,得到实验数据。最近两年我们非常专注于实验数据背后隐藏的理论分析,比如数据之间的关联性——这种关联性背后有底层的理论依据,最底层到量子力学,但表面上也有一些我们叫 toy model 或者经验性的数学公式。

我们目前做的是从 AI supervisor 提出科研指导,用机器去进行实验的证明或证伪。在这个过程中,实验数据会展现出一些以前可能被忽视的关联性,我们把它叫做“公式”。这种公式在科学界和工业界都很重要,比如高通量筛选后可以用一条线来判断好坏。希望通过这次活动跟大家分享我们这几年的科研思考,也跟年轻的科研人员探讨这个领域未来的前景。

张鹏松: 大家好,我是张鹏松,目前就读于多伦多大学博士四年级。我的研究方向是机器人做微生物操作,以及“ AI +机器人”做自动化生物实验。 Chat GPT 出来之后,我们就在想能不能把 AI agent 跟机器人结合,做自动化科研,我们前期先做一些纯 AI 的探索,做了 AI 科学家的东西。

在这个过程中我们发现,相对于人类科学家, AI 有一个很好的优势——它可以无限复制。如果 AI 科学家的能力能达到研究生或博士生水平,那它产出的科研成果可能会产生一种新的 scaling law —— AI agent 的数量可以无限部署。基于这个动机,我们探索了一个专门针对 AI 科学家或机器人科学家产出科研成果的运营平台。现在我们也在做新的探索: AI 科学家能不能从 idea 构思开始,到做实验,再到自己写完论文,然后投到一个只有 AI 参与的会议上,这次也想通过这种方式和大家分享一些我的想法。

刘昊琨: 大家好,我是刘昊琨,目前就读于芝加哥大学计算机科学博士五年级。我从 2023 年底开始接触 AI 科研,最开始做自动化假设生成,后来延伸到让大模型提出有意义的科研假设。我们遇到了一个瓶颈:如何客观评估这些科研想法?

带着这个初衷,我们做了自己的 AI scientist ,叫做 Neuroco 。做了几个月后,这个 AI 科学家已经能做到初步的科研想法探索,提供初步实验,并给提出想法的人后续探索方案。所以我们觉得做一个真正有用的科学家工具是非常有潜力的。我们最近也推出了一个平台叫 Agent for Science ,让不同的 AI 科学家一起探讨科研想法。很期待之后和各位老师的讨论,看看大家对 AI 科学家最前沿的看法,包括它会对科研人员的培养和教育产生什么影响。

什么是 AI 科学家,对当前的冲击如何

DeepTech: AI 科学家对我们现有的科研体系意味着什么?对传统有哪些冲击?

朱熹: “科学家”这个定义比科学要晚,大概在康德之前才出现。科学本身来自形而上学的问题,我们今天理解的科学,一部分是发现新的现象、优化性能——比如把钙钛矿材料从 20% 效率提到 30% ,这可以通过大数据和大模型来做。但还有另一种科学,比如量子力学的发现,它不可能用数学推导出来,这是 AI 目前做不到的。

这里面有一个关键区分:先验知识与后验知识。先验知识不需要经验,独立于感官,在任何观察发生之前就成立。比如三角形内角和 180° ,不需要测量所有三角形就知道。数学和逻辑学都是这样。 AI 目前的所有知识都是先验知识——它基于数据训练,输出也是基于已有模式。所以 AI 科学家仍然非常重要——它能帮我们更高效地发现新科学。

DeepTech: 所以 AI 既能做干实验也能做湿实验?效率能提升多少?

朱熹: 效率取决于人类科学家的直觉。在康德哲学里有一种综合的说法—— AI 通过实验提供更多数据,能让我们有更高的可能性激发直觉,产生新想法。

DeepTech: 张博和刘博做的是 AI 领域的科研,那 AI 科学家对你们的冲击是不是更大?

刘昊琨: 我觉得是的。我特别认同朱老师关于后验科学的说法——我们缺少的是新的、未被定义过的发现, AI 很难帮我们提供这些。回到 AI 科研本身,结论是冲击确实更大。因为现在的 AI 工具已经能做大量干实验中的执行工作:数据分析、简单模型训练、撰写论文,甚至根据反馈迭代工作流。如果只考虑执行层面, AI 已经能做所有事情。

但为什么 AI 科学家还没达到理想水准?因为科研中的决策——比如下一步该做什么实验、用什么数据测试、数据有没有泄露问题——这些“科研品味”和“高标准”是 AI 特别欠缺的。所以现在的工作流仍然需要大量人类提供好的品味和决策。

张鹏松: 我从个人体验补充一下,我做的方向是 AI 机器人做生物科学研究。一个比较大的冲击是:研究生拿到一个课题后,以前我们要把历史代码和数据给他看,现在他可以直接借助 AI 工具进行自动分析数据、掌握课题架构,我们甚至做了一个实验来验证这个现象,同时也发到了 AI 预印本上。

AI 对基础科研能力训练的提升作用

DeepTech: 如果有自动化实验,研究生还需要长时间训练吗?另外,提出问题能力和解决问题能力,哪个更重要呢?

张鹏松: 培训还是有必要的,但时间不需要那么长。干实验和湿实验的基础培训还是要做的。湿实验方面,如果实验设计已经自动化,一两天的基础培训也够了,我认为真正需要的培训更多是安全规范和流程。

至于提出问题 vs 解决问题,以前说“ idea is cheap , show me the code ”,意思是想法是廉价的,但是结果是重要的。但现在 AI 解决问题的能力提升很快,所以提出问题更重要了。问题提出来之后, AI 科学家或机器人科学家很可能帮你实现。甚至小学生、初中生都可以提出问题,提炼成科学问题。未来人人都可能成为科学家,只要他们能提出有意义的问题。

刘昊琨: 我同样认为培训是必要的,而且传统培训方式可能优于 AI 辅助培训。就像小时候学数学,背公式不如从头推导。传统培训能让人真正理解底层意义,知道遇到什么情况该怎么做。这些不是口头能教会的,必须通过切实体会——比如科研中遇到困难、自己解决或合作解决。这样的经历对成长至关重要。

关于提出问题 vs 解决问题,我觉得都重要。提出问题和解决问题是分不开的。解决问题中,知道“怎么解决”比“执行”重要。 AI 大大提高了执行力,但对于开放性科研问题, AI 还不能有效提出最佳解决方案。人类仍然需要提供解决问题的路径。

朱熹: 我们要把问题放在特定时空中看, 100 年前的科学家受的教育在我们看来很初级,100 年后的人也会看我们。我们现在的选择其实是受制于技术水平的——我们用手做实验,是因为没有自动化技术。放在十年、二十年前,我们甚至要去图书馆翻纸质文献。

所以判断要不要学某项技术,要看我们能获取什么资源,以及这些资源是否符合科技培养的初心。化学实验 300 年来一直围绕同一种动手能力培养,但现在我们可能是在培养最后一批用手做实验的人类。随着技术进步,很多实验操作可以用机器代替。

至于提出问题还是解决问题重要,要看场景。黎曼猜想——提出问题本身就需要极深的洞察力。 比如对于国产芯片问题,解决这个问题需要大量的努力和运气,所以不能一概而论。

AI 科学家的技术路

DeepTech: 我们做 AI 科学家,是训练自己的模型,还是用开源模型微调,还是直接调用 API ?

朱熹: 2023 年三四月份, Llama 刚出来的时候,我们有合作伙伴花了三个月、 3,000 多万训练了一个模型。后来 Llama 不断出新版本,甚至 DeepSeek 出来了,以前训练的模型性能完全跟不上,钱基本白花了,所以从头训练这条路走不通。

现在大公司完全具备训练能力,对一般科研团队来说,做微调或者用大公司的模型加垂直领域,性能肯定比我们自己做的更好。所以在纯软件和 AI 开发层面,跟大公司竞争是徒劳的。我们一直重视湿实验,就是这个逻辑。

刘昊琨: 我知道 Meta 做过 Galactica ,从头训练的科学大模型,表现太差被砍掉了。现在确实有很多人在做各种尝试:从头训练、微调、套壳工具。但即使有这么多工作,依然没有一个能被广泛使用的、真正带来科研产出的好工具。包括之前直播产出了 100 多篇论文的那些工作,局限性都很大。

我觉得大公司有他们的优先级, AI 科学家可能不是短期能带来大量收益的方向。他们现在主攻推理和写代码。学术界如果能集中不同领域的科研需求,做一个对每个领域都有用的工具,还是有意义的。

张鹏松: 我个人体验是套壳工具能力更强,因为它内部用的是 GPT 或 Claude 这种基模。但湿实验学科——生物、化学、工程设计——大公司做不到,因为机器人的通用操作能力还很弱。运动能力已经很强了,但像人一样在物理世界操作任何物体,还差得远。这是非常大的门槛。

AI 写论文是理解知识还是概率匹配?

DeepTech: AI 写论文,是真正理解了知识,还是只是概率匹配?论文在科研中的核心价值是否在下降?

朱熹: Nature  官网有它的使命:一是通过发表各学科进展服务科学家,让科学家知道别人在做什么;二是让科学家的成果能够表达出去,让外面的人知道。本质上,论文不是刚需,刚需的是论文中的知识。

在现在的传播媒体下,出版社已经不是一个必需的存在——它更多是话语权的评定。 X 平台(原 Twitter)如果是一个出版社,它辐射的人群和社会影响力远远超过任何订阅制出版社。出版社的历史使命已经快要结束了。它的评价体系也在日趋瓦解——看看 Elsevier 母公司 Relx 的股票,一直没有增长,市场在用脚投票。

现在最好的科技并没有发表在出版社的杂志上,而是在私人公司的保险箱里。我们获取有用知识越来越难, AI 可能能帮我们解决这个问题。

DeepTech: 那 AI 写论文的价值在哪里?能体现人类思想吗?

朱熹: 论文是给人看的,没有人真的想看你的论文,你写论文无非是告诉别人“我的论文被某个期刊评价了”,进而引导别人对你个人进行评价。如果你的工作真的解决了重大问题,那工作内容本身已经超过论文的价值。 AI 写的论文和人写的论文本质上没有区别,区别在于利益主体是谁。

刘昊琨: 我大部分同意朱老师的看法。 AI 写论文现在的主要作用就是个人价值增长——简历更好看,顶会论文多,能拿好工作。这很现实。

但我对论文这种传播途径不太喜欢。现在的论文花大量文笔讲“做了什么、为什么好、和基准测试对比”,但作为科研人员,我最想知道的是:你从什么地方开始的?为什么要这么做?中途失败过哪些?什么证据给了你后续思路?这些东西几乎没人写了。

社交媒体反倒成了传播科学知识的主体,很多科研人员花大量精力在这些平台上传播工作、直接讨论、碰撞想法。这比读一篇论文、发表评论要高效得多。

张鹏松: 基于两位的看法,我扩展一下我的想法。如果 AI 做科研的水平能达到科研工作者的中等水平,那 AI 产出的论文人类可能根本看不过来。这种情况下, AI 写的论文主要阅读对象是 AI 自己——让 AI 提炼观点和方法。

另外,传统期刊和会议现在只是一个过渡阶段。人类和 AI 合作会产出巨大增量的论文,期刊根本管不过来。未来的科研成果发布可能需要像小红书、抖音一样,有精准推送机制,把海量论文推送到不同人的注意力上。

同行评议的危机:顶会投稿量暴增与评审质量下滑

DeepTech: 如果顶会用低水平审稿人,或者审稿人用 AI 审稿,会冲击学术生态吗?

张鹏松: 我们做过这样的思考。如果有一个学术社交平台,最好设置机制,即有经过认证的人类学者进行评审,也有经过训练和对齐的 AI 评审智能体,普通人和 AI agent 的评论可以放到另一个区域,这样有学术界的人背书。但说实话,现在很多会议的评审质量也不怎么样。很多审稿人是刚入学的研究生,甚至直接用 AI 审稿。就连  Science  /  Nature  ,不同审稿人的标准也差异很大——有的觉得好,有的觉得不行,最后还是发表了。引入社会化评论,可能反而能更好评价一篇论文的价值。

刘昊琨: 我个人对顶会的信任度在过去几年急剧降低。一是读了很多顶会论文,质量并不好;二是评审机制能提供的帮助越来越小——很多时候评审意见就是扯淡,甚至高分也会被 AC 拒掉。所以顶会已经不再是权威的代表。好论文当然还有,但“噪声”概率在上升。花时间读顶会论文,很可能浪费很多时间。

更好的媒介是什么?比如  arXiv  这种平台,让大家自由上传工作,不一定以长篇论文形式。再加上自动验证工具——帮忙验证论文内容真假、尝试复现结果——可以作为初步门槛,减少评审压力。

朱熹: 我分享一个观点:如果你有很好的工作,就不应该发论文。为什么?第一,顶刊有自己的筛选逻辑,你觉得好不一定能发。第二,发表后别人可以不引用你,改一改说自己原创。第三,大公司会拿走你的技术,但不会承认你。所以如果你的工作越好,越不该发论文。你应该不断深化它,找可靠的朋友合作,把它变成能服务社会也能服务自己的东西。

审稿这件事本身就有问题。为什么需要期刊帮我们判断论文好坏?无非是自己不懂。如果你分辨不出论文好坏,就不要进这个圈子。 AI 技术树立了一个客观标杆,能把不适合的人排除出去。

AI Native 一代:科研人员将如何成长

DeepTech: 我们这一代人可能是传统科研训练出来的最后一代。 AI Native 培养出来的科研人员,他们需要如何成长?

朱熹: AI Native 的学生,他们的动手能力是“热兵器化”的——高通量理解实验数据,同时理解 60 多个数据。他们不会像我们一样依赖权威,而是用统计投票思维,知道一两个样本天然有方差,只要用合适的教育方式,他们绝对比我们厉害太多。

他们跨过了我们那些陈旧的评价体系。某种意义上,他们应该把我们代谢掉,用更高效的方式解决真正的卡脖子问题、设计新材料,这慢慢就回归到科研本身了。

刘昊琨: 回顾我自己的受教育过程,如果有 AI 工具,很多学习阶段会压缩。整个知识体系构建会不一样,年轻一代基于 AI 高效生产的思维体系,一定会带来爆发式增长。打个比方: 20 多年前网球拍是木质的,现在用碳纤维,轻太多了。年轻球员的技术和 30 年前完全不一样。把过去的球星放到现在,一定打不过年轻人——因为他们的技术受限于当时的科技。同样的,未来年轻人的知识体系建立在高效率上,他们对世界的理解一定会比我们更深。

张鹏松: AI Native 培养出来的科研人员,教育时长是不是应该改变?现在读完博士要 30岁,中间很多时间花在初中、高中、大学的基础知识上。如果高中以前的教育能压缩到小学完成,大学教育在初中前完成,那初中高中就可以培养科研思维和创新思维,这样社会进步会更快。

学术出版的商业模式与 AI 影响的传播速度

DeepTech: 开放获取期刊更有利于传播吗?付费墙会不会导致知识垄断?

刘昊琨: 我希望看到学术期刊领域发生重大变革。大量资源集中在名校,小组的好工作没人看。顶会的权威性在降低。很多读 PhD 的人一开始都抱着一腔热血想做纯粹科研,但看到环境里发生了太多不纯粹的事情。我希望看到更公开、更真实的科研讨论,哪怕代价是现有机构瓦解。

朱熹: 从商业模式上讲,出版社把尖端知识搜集起来分发本身没问题,问题在于产品质量在下滑,客户在抛弃它,好的科研它不要,人家总要找个家。所以商业模式没问题,只是出版社自己没有做好。

张鹏松: 我认为现在的商业模式有巨大问题,作者投稿要交钱,读者阅读要交钱,审稿人是免费的——出版商利用三方价值。开放获取让作者交钱,也是霸王条款。真正的开放获取应该像  arXiv  一样完全免费。而且审稿人应该获得金钱回报。

AI 对科技评价体系的冲击

DeepTech: AI 科学家能否作为独立评价对象?能否作为共同作者?

朱熹: 评价体系要看主体,私立大学自己对自己负责,领导懂科学的话聊五分钟就知道水平。公立体系比较复杂,评价者未必是专业人士,所以需要共识性标准。目前的论文评价体系虽然不是科学的,但是合理的。

AI 可以辅助评价,比如做创新性分析——更准确地说是“创旧性分析”,找出与已有工作的重合度。但更重要的是, AI 让科研可以面向市场交易——解决真实社会问题、让更多人认可你的创新。在不干扰现有评价体系的前提下,我们可以有自己的独立评价方式。

刘昊琨: 我倾向于 AI 目前只是工具。我每天都在用 AI ,但它帮我实现的事情,核心思路还是我自己的努力和思考。如果某天大公司做出能自发产生好品味的模型,我可能会考虑把 AI 作为共同作者,但现在,它就是工具。

张鹏松: 我们跟很多专家讨论过,把 AI 作者分成三种情况:

AI 端到端做科研,自己生成 idea 、执行所有流程——列为第一作者和通讯作者,但要链接一个对人类负责的人。

人类主导, AI 辅助实验和细节——列为共同作者,是否共同一作由人类决定。

AI 探索出大部分工作,但需要人类专家判断指导—— AI 是第一作者,人类是责任作者。

所以, AI 是工具,但未来某一天,它可能会成为真正的伙伴。

DeepTech: 非常感谢三位老师的深度对谈,也感谢大家的收听。关于本期内容,欢迎在评论区和我们交流。

主题:科研|论文|AI科学家|评价体系