在AI彻底接管科研之前，我们和三位人类科研工作者聊了聊

速读：这释放了一个明确信号：AI正在重塑科研的基础设施、生产关系和评价逻辑。 1:20:15-01:30:04｜AINative一代：科研人员将如何成长。曾经，AI只是科研路上的辅助工具，而今，它正一步步重塑科研的基础设施、生产关系与评价逻辑，从实验执行到论文撰写，从科研训练到成果评价，科研的各个环节都因AI迎来新的可能与挑战。如果AI科学家的能力能达到研究生或博士生水平，那它产出的科研成果可能会产生一种新的scalinglaw——AIagent的数量可以无限部署。我们遇到了一个瓶颈：如何客观评估这些科研想法？

2026年04月09日 17:38

进入 2026 年， AI 对科研的渗透已远超辅助工具的范畴。 Nature 连续刊发两项研究：一是 AI 文献综述的引用准确率超过人类专家；二是 AI 机器人独立完成从构思、实验、写作到同行评议的全流程。这释放了一个明确信号： AI 正在重塑科研的基础设施、生产关系和评价逻辑。

当 AI 能独立完成从构思到实验、写作再到同行评议的科研全流程，当 AI 撰写的文献综述引用准确率超越人类专家，一场关于科研的深层变革已然到来。

曾经， AI 只是科研路上的辅助工具，而今，它正一步步重塑科研的基础设施、生产关系与评价逻辑，从实验执行到论文撰写，从科研训练到成果评价，科研的各个环节都因 AI 迎来新的可能与挑战。

与此同时，一个根本性问题浮出水面：当 AI 能提出假设、设计实验、分析数据甚至撰写论文，人类科学家的价值在哪里？科研训练、论文发表、学术评价体系将何去何从？我们花费数十年建立的科研训练体系、学术出版彻底颠覆掉？

为了深入探讨这些问题，本期 DeepTalk 邀请到三位前沿研究者：香港中文大学（深圳）副教授朱熹、多伦多大学博士张鹏松、芝加哥大学博士刘昊琨。围绕 AI 科学家的能力边界、科研论文的价值变迁、评价体系的未来走向，展开了一场深度对谈。

时间线

00:00-09:51｜嘉宾介绍与开场

09:51-25:38｜什么是 AI 科学家，对当前的冲击如何

25:38-33:52｜ AI 对基础科研能力训练的提升作用

33:52-52:00｜ AI 科学家的技术路线

52:00-1:09:17｜ AI 写论文是理解知识还是概率匹配？

1:09:17-1:13:33｜同行评议的危机：顶会投稿量暴增与评审质量下滑

1:13:33-1:20:15｜社交媒体 vs 传统期刊：科学传播的新媒介

1:20:15-01:30:04｜ AI Native 一代：科研人员将如何成长

01:30:04-01:38:39｜学术出版的商业模式与 AI 影响的传播速度

01:38:39-01:52:21｜ AI 对科技评价体系的冲击

以下是对话正文：

DeepTech：欢迎三位老师，请老师们先给大家做个自我介绍。

朱熹：大家好，我是香港中文大学副教授朱熹。我的研究方向是人工智能和机器人技术，并通过机器与 AI 衔接，把一部分 AI 提出的科学思路进行实验执行，得到实验数据。最近两年我们非常专注于实验数据背后隐藏的理论分析，比如数据之间的关联性——这种关联性背后有底层的理论依据，最底层到量子力学，但表面上也有一些我们叫 toy model 或者经验性的数学公式。

我们目前做的是从 AI supervisor 提出科研指导，用机器去进行实验的证明或证伪。在这个过程中，实验数据会展现出一些以前可能被忽视的关联性，我们把它叫做“公式”。这种公式在科学界和工业界都很重要，比如高通量筛选后可以用一条线来判断好坏。希望通过这次活动跟大家分享我们这几年的科研思考，也跟年轻的科研人员探讨这个领域未来的前景。

张鹏松：大家好，我是张鹏松，目前就读于多伦多大学博士四年级。我的研究方向是机器人做微生物操作，以及“ AI +机器人”做自动化生物实验。 Chat GPT 出来之后，我们就在想能不能把 AI agent 跟机器人结合，做自动化科研，我们前期先做一些纯 AI 的探索，做了 AI 科学家的东西。

在这个过程中我们发现，相对于人类科学家， AI 有一个很好的优势——它可以无限复制。如果 AI 科学家的能力能达到研究生或博士生水平，那它产出的科研成果可能会产生一种新的 scaling law —— AI agent 的数量可以无限部署。基于这个动机，我们探索了一个专门针对 AI 科学家或机器人科学家产出科研成果的运营平台。现在我们也在做新的探索： AI 科学家能不能从 idea 构思开始，到做实验，再到自己写完论文，然后投到一个只有 AI 参与的会议上，这次也想通过这种方式和大家分享一些我的想法。

刘昊琨：大家好，我是刘昊琨，目前就读于芝加哥大学计算机科学博士五年级。我从 2023 年底开始接触 AI 科研，最开始做自动化假设生成，后来延伸到让大模型提出有意义的科研假设。我们遇到了一个瓶颈：如何客观评估这些科研想法？

带着这个初衷，我们做了自己的 AI scientist ，叫做 Neuroco 。做了几个月后，这个 AI 科学家已经能做到初步的科研想法探索，提供初步实验，并给提出想法的人后续探索方案。所以我们觉得做一个真正有用的科学家工具是非常有潜力的。我们最近也推出了一个平台叫 Agent for Science ，让不同的 AI 科学家一起探讨科研想法。很期待之后和各位老师的讨论，看看大家对 AI 科学家最前沿的看法，包括它会对科研人员的培养和教育产生什么影响。

什么是 AI 科学家，对当前的冲击如何

DeepTech： AI 科学家对我们现有的科研体系意味着什么？对传统有哪些冲击？

朱熹： “科学家”这个定义比科学要晚，大概在康德之前才出现。科学本身来自形而上学的问题，我们今天理解的科学，一部分是发现新的现象、优化性能——比如把钙钛矿材料从 20% 效率提到 30% ，这可以通过大数据和大模型来做。但还有另一种科学，比如量子力学的发现，它不可能用数学推导出来，这是 AI 目前做不到的。

这里面有一个关键区分：先验知识与后验知识。先验知识不需要经验，独立于感官，在任何观察发生之前就成立。比如三角形内角和 180° ，不需要测量所有三角形就知道。数学和逻辑学都是这样。 AI 目前的所有知识都是先验知识——它基于数据训练，输出也是基于已有模式。所以 AI 科学家仍然非常重要——它能帮我们更高效地发现新科学。

DeepTech：所以 AI 既能做干实验也能做湿实验？效率能提升多少？

朱熹：效率取决于人类科学家的直觉。在康德哲学里有一种综合的说法—— AI 通过实验提供更多数据，能让我们有更高的可能性激发直觉，产生新想法。

DeepTech：张博和刘博做的是 AI 领域的科研，那 AI 科学家对你们的冲击是不是更大？

刘昊琨：我觉得是的。我特别认同朱老师关于后验科学的说法——我们缺少的是新的、未被定义过的发现， AI 很难帮我们提供这些。回到 AI 科研本身，结论是冲击确实更大。因为现在的 AI 工具已经能做大量干实验中的执行工作：数据分析、简单模型训练、撰写论文，甚至根据反馈迭代工作流。如果只考虑执行层面， AI 已经能做所有事情。

但为什么 AI 科学家还没达到理想水准？因为科研中的决策——比如下一步该做什么实验、用什么数据测试、数据有没有泄露问题——这些“科研品味”和“高标准”是 AI 特别欠缺的。所以现在的工作流仍然需要大量人类提供好的品味和决策。

张鹏松：我从个人体验补充一下，我做的方向是 AI 机器人做生物科学研究。一个比较大的冲击是：研究生拿到一个课题后，以前我们要把历史代码和数据给他看，现在他可以直接借助 AI 工具进行自动分析数据、掌握课题架构，我们甚至做了一个实验来验证这个现象，同时也发到了 AI 预印本上。

AI 对基础科研能力训练的提升作用

DeepTech：如果有自动化实验，研究生还需要长时间训练吗？另外，提出问题能力和解决问题能力，哪个更重要呢？

张鹏松：培训还是有必要的，但时间不需要那么长。干实验和湿实验的基础培训还是要做的。湿实验方面，如果实验设计已经自动化，一两天的基础培训也够了，我认为真正需要的培训更多是安全规范和流程。

至于提出问题 vs 解决问题，以前说“ idea is cheap , show me the code ”，意思是想法是廉价的，但是结果是重要的。但现在 AI 解决问题的能力提升很快，所以提出问题更重要了。问题提出来之后， AI 科学家或机器人科学家很可能帮你实现。甚至小学生、初中生都可以提出问题，提炼成科学问题。未来人人都可能成为科学家，只要他们能提出有意义的问题。

刘昊琨：我同样认为培训是必要的，而且传统培训方式可能优于 AI 辅助培训。就像小时候学数学，背公式不如从头推导。传统培训能让人真正理解底层意义，知道遇到什么情况该怎么做。这些不是口头能教会的，必须通过切实体会——比如科研中遇到困难、自己解决或合作解决。这样的经历对成长至关重要。

关于提出问题 vs 解决问题，我觉得都重要。提出问题和解决问题是分不开的。解决问题中，知道“怎么解决”比“执行”重要。 AI 大大提高了执行力，但对于开放性科研问题， AI 还不能有效提出最佳解决方案。人类仍然需要提供解决问题的路径。

朱熹：我们要把问题放在特定时空中看， 100 年前的科学家受的教育在我们看来很初级，100 年后的人也会看我们。我们现在的选择其实是受制于技术水平的——我们用手做实验，是因为没有自动化技术。放在十年、二十年前，我们甚至要去图书馆翻纸质文献。

所以判断要不要学某项技术，要看我们能获取什么资源，以及这些资源是否符合科技培养的初心。化学实验 300 年来一直围绕同一种动手能力培养，但现在我们可能是在培养最后一批用手做实验的人类。随着技术进步，很多实验操作可以用机器代替。

至于提出问题还是解决问题重要，要看场景。黎曼猜想——提出问题本身就需要极深的洞察力。比如对于国产芯片问题，解决这个问题需要大量的努力和运气，所以不能一概而论。

AI 科学家的技术路

DeepTech：我们做 AI 科学家，是训练自己的模型，还是用开源模型微调，还是直接调用 API ？

朱熹： 2023 年三四月份， Llama 刚出来的时候，我们有合作伙伴花了三个月、 3,000 多万训练了一个模型。后来 Llama 不断出新版本，甚至 DeepSeek 出来了，以前训练的模型性能完全跟不上，钱基本白花了，所以从头训练这条路走不通。

现在大公司完全具备训练能力，对一般科研团队来说，做微调或者用大公司的模型加垂直领域，性能肯定比我们自己做的更好。所以在纯软件和 AI 开发层面，跟大公司竞争是徒劳的。我们一直重视湿实验，就是这个逻辑。

刘昊琨：我知道 Meta 做过 Galactica ，从头训练的科学大模型，表现太差被砍掉了。现在确实有很多人在做各种尝试：从头训练、微调、套壳工具。但即使有这么多工作，依然没有一个能被广泛使用的、真正带来科研产出的好工具。包括之前直播产出了 100 多篇论文的那些工作，局限性都很大。

我觉得大公司有他们的优先级， AI 科学家可能不是短期能带来大量收益的方向。他们现在主攻推理和写代码。学术界如果能集中不同领域的科研需求，做一个对每个领域都有用的工具，还是有意义的。

张鹏松：我个人体验是套壳工具能力更强，因为它内部用的是 GPT 或 Claude 这种基模。但湿实验学科——生物、化学、工程设计——大公司做不到，因为机器人的通用操作能力还很弱。运动能力已经很强了，但像人一样在物理世界操作任何物体，还差得远。这是非常大的门槛。

AI 写论文是理解知识还是概率匹配？

DeepTech： AI 写论文，是真正理解了知识，还是只是概率匹配？论文在科研中的核心价值是否在下降？

朱熹： Nature 官网有它的使命：一是通过发表各学科进展服务科学家，让科学家知道别人在做什么；二是让科学家的成果能够表达出去，让外面的人知道。本质上，论文不是刚需，刚需的是论文中的知识。

在现在的传播媒体下，出版社已经不是一个必需的存在——它更多是话语权的评定。 X 平台（原 Twitter）如果是一个出版社，它辐射的人群和社会影响力远远超过任何订阅制出版社。出版社的历史使命已经快要结束了。它的评价体系也在日趋瓦解——看看 Elsevier 母公司 Relx 的股票，一直没有增长，市场在用脚投票。

现在最好的科技并没有发表在出版社的杂志上，而是在私人公司的保险箱里。我们获取有用知识越来越难， AI 可能能帮我们解决这个问题。

DeepTech：那 AI 写论文的价值在哪里？能体现人类思想吗？

朱熹：论文是给人看的，没有人真的想看你的论文，你写论文无非是告诉别人“我的论文被某个期刊评价了”，进而引导别人对你个人进行评价。如果你的工作真的解决了重大问题，那工作内容本身已经超过论文的价值。 AI 写的论文和人写的论文本质上没有区别，区别在于利益主体是谁。

刘昊琨：我大部分同意朱老师的看法。 AI 写论文现在的主要作用就是个人价值增长——简历更好看，顶会论文多，能拿好工作。这很现实。

但我对论文这种传播途径不太喜欢。现在的论文花大量文笔讲“做了什么、为什么好、和基准测试对比”，但作为科研人员，我最想知道的是：你从什么地方开始的？为什么要这么做？中途失败过哪些？什么证据给了你后续思路？这些东西几乎没人写了。

社交媒体反倒成了传播科学知识的主体，很多科研人员花大量精力在这些平台上传播工作、直接讨论、碰撞想法。这比读一篇论文、发表评论要高效得多。

张鹏松：基于两位的看法，我扩展一下我的想法。如果 AI 做科研的水平能达到科研工作者的中等水平，那 AI 产出的论文人类可能根本看不过来。这种情况下， AI 写的论文主要阅读对象是 AI 自己——让 AI 提炼观点和方法。

另外，传统期刊和会议现在只是一个过渡阶段。人类和 AI 合作会产出巨大增量的论文，期刊根本管不过来。未来的科研成果发布可能需要像小红书、抖音一样，有精准推送机制，把海量论文推送到不同人的注意力上。

同行评议的危机：顶会投稿量暴增与评审质量下滑

DeepTech：如果顶会用低水平审稿人，或者审稿人用 AI 审稿，会冲击学术生态吗？

张鹏松：我们做过这样的思考。如果有一个学术社交平台，最好设置机制，即有经过认证的人类学者进行评审，也有经过训练和对齐的 AI 评审智能体，普通人和 AI agent 的评论可以放到另一个区域，这样有学术界的人背书。但说实话，现在很多会议的评审质量也不怎么样。很多审稿人是刚入学的研究生，甚至直接用 AI 审稿。就连 Science / Nature ，不同审稿人的标准也差异很大——有的觉得好，有的觉得不行，最后还是发表了。引入社会化评论，可能反而能更好评价一篇论文的价值。

刘昊琨：我个人对顶会的信任度在过去几年急剧降低。一是读了很多顶会论文，质量并不好；二是评审机制能提供的帮助越来越小——很多时候评审意见就是扯淡，甚至高分也会被 AC 拒掉。所以顶会已经不再是权威的代表。好论文当然还有，但“噪声”概率在上升。花时间读顶会论文，很可能浪费很多时间。

更好的媒介是什么？比如 arXiv 这种平台，让大家自由上传工作，不一定以长篇论文形式。再加上自动验证工具——帮忙验证论文内容真假、尝试复现结果——可以作为初步门槛，减少评审压力。

朱熹：我分享一个观点：如果你有很好的工作，就不应该发论文。为什么？第一，顶刊有自己的筛选逻辑，你觉得好不一定能发。第二，发表后别人可以不引用你，改一改说自己原创。第三，大公司会拿走你的技术，但不会承认你。所以如果你的工作越好，越不该发论文。你应该不断深化它，找可靠的朋友合作，把它变成能服务社会也能服务自己的东西。

审稿这件事本身就有问题。为什么需要期刊帮我们判断论文好坏？无非是自己不懂。如果你分辨不出论文好坏，就不要进这个圈子。 AI 技术树立了一个客观标杆，能把不适合的人排除出去。

AI Native 一代：科研人员将如何成长

DeepTech：我们这一代人可能是传统科研训练出来的最后一代。 AI Native 培养出来的科研人员，他们需要如何成长？

朱熹： AI Native 的学生，他们的动手能力是“热兵器化”的——高通量理解实验数据，同时理解 60 多个数据。他们不会像我们一样依赖权威，而是用统计投票思维，知道一两个样本天然有方差，只要用合适的教育方式，他们绝对比我们厉害太多。

他们跨过了我们那些陈旧的评价体系。某种意义上，他们应该把我们代谢掉，用更高效的方式解决真正的卡脖子问题、设计新材料，这慢慢就回归到科研本身了。

刘昊琨：回顾我自己的受教育过程，如果有 AI 工具，很多学习阶段会压缩。整个知识体系构建会不一样，年轻一代基于 AI 高效生产的思维体系，一定会带来爆发式增长。打个比方： 20 多年前网球拍是木质的，现在用碳纤维，轻太多了。年轻球员的技术和 30 年前完全不一样。把过去的球星放到现在，一定打不过年轻人——因为他们的技术受限于当时的科技。同样的，未来年轻人的知识体系建立在高效率上，他们对世界的理解一定会比我们更深。

张鹏松： AI Native 培养出来的科研人员，教育时长是不是应该改变？现在读完博士要 30岁，中间很多时间花在初中、高中、大学的基础知识上。如果高中以前的教育能压缩到小学完成，大学教育在初中前完成，那初中高中就可以培养科研思维和创新思维，这样社会进步会更快。

学术出版的商业模式与 AI 影响的传播速度

DeepTech：开放获取期刊更有利于传播吗？付费墙会不会导致知识垄断？

刘昊琨：我希望看到学术期刊领域发生重大变革。大量资源集中在名校，小组的好工作没人看。顶会的权威性在降低。很多读 PhD 的人一开始都抱着一腔热血想做纯粹科研，但看到环境里发生了太多不纯粹的事情。我希望看到更公开、更真实的科研讨论，哪怕代价是现有机构瓦解。

朱熹：从商业模式上讲，出版社把尖端知识搜集起来分发本身没问题，问题在于产品质量在下滑，客户在抛弃它，好的科研它不要，人家总要找个家。所以商业模式没问题，只是出版社自己没有做好。

张鹏松：我认为现在的商业模式有巨大问题，作者投稿要交钱，读者阅读要交钱，审稿人是免费的——出版商利用三方价值。开放获取让作者交钱，也是霸王条款。真正的开放获取应该像 arXiv 一样完全免费。而且审稿人应该获得金钱回报。

AI 对科技评价体系的冲击

DeepTech： AI 科学家能否作为独立评价对象？能否作为共同作者？

朱熹：评价体系要看主体，私立大学自己对自己负责，领导懂科学的话聊五分钟就知道水平。公立体系比较复杂，评价者未必是专业人士，所以需要共识性标准。目前的论文评价体系虽然不是科学的，但是合理的。

AI 可以辅助评价，比如做创新性分析——更准确地说是“创旧性分析”，找出与已有工作的重合度。但更重要的是， AI 让科研可以面向市场交易——解决真实社会问题、让更多人认可你的创新。在不干扰现有评价体系的前提下，我们可以有自己的独立评价方式。

刘昊琨：我倾向于 AI 目前只是工具。我每天都在用 AI ，但它帮我实现的事情，核心思路还是我自己的努力和思考。如果某天大公司做出能自发产生好品味的模型，我可能会考虑把 AI 作为共同作者，但现在，它就是工具。

张鹏松：我们跟很多专家讨论过，把 AI 作者分成三种情况：

AI 端到端做科研，自己生成 idea 、执行所有流程——列为第一作者和通讯作者，但要链接一个对人类负责的人。

人类主导， AI 辅助实验和细节——列为共同作者，是否共同一作由人类决定。

AI 探索出大部分工作，但需要人类专家判断指导—— AI 是第一作者，人类是责任作者。

所以， AI 是工具，但未来某一天，它可能会成为真正的伙伴。

DeepTech：非常感谢三位老师的深度对谈，也感谢大家的收听。关于本期内容，欢迎在评论区和我们交流。

主题：科研|论文|AI科学家|评价体系