AI时代论文到底该怎么写?XtraGPT重新定义「AI学术写作」
如果说过去两年里,AI 学术圈最显眼的变化是论文越来越多、模型越来越强、投稿越来越卷,那么另一个同样重要的问题其实正在变得更尖锐:
当 LLM 进入论文写作流程时,它到底应该扮演什么角色 ?
是替研究者从零生成一篇论文?
是把一段文字润色得更像英文母语者?
还是在作者已经有想法、有实验、有初稿之后,帮助他们把论文改得更严谨、更一致、更符合学术共同体的标准?
近日,来自新加坡国立大学何炳胜教授的研究团队提出了 XtraGPT: Context-Aware and Controllable Academic Paper Revision via Human-AI Collaboration ,并已被 ACL 2026 接收。
XtraGPT Paper: https://arxiv.org/pdf/2505.11336
XtraGPT Code: https://github.com/Xtra-Computing/XtraGPT
XtraGPT-14B Model: https://huggingface.co/Xtra-Computing/XtraGPT-14B
PaperDebugger: https://arxiv.org/abs/2512.02589
这篇工作的有趣之处不只在于它训练了一组面向论文修改的开源模型,而在于它试图回答一个更大的问题:
在 AI 时代,学术写作工具不应该继续沿着「自动生成论文」的方向狂奔,而应该转向一种更可控、更有上下文、更尊重作者主体性的写作协作模式。
通用 LLM 会润色文字,但论文真正缺的是「学术修改」
今天很多研究者已经在用 ChatGPT、Claude 或其他通用 LLM 辅助写作。
最常见的用法是:把一段论文塞进去,然后要求模型「make it better」「polish this paragraph」「strengthen the motivation」。
表面上看,这类工具确实很有用。它们能让句子更流畅,语法更自然,表达更像一篇正式论文。
但问题也正在这里。
流畅,不等于严谨 。
论文修改真正困难的地方,往往不是把一句话写得更顺,而是补上缺失的论证链条:为什么这个问题重要?当前方法缺在哪里?贡献和实验之间是否互相支撑?术语在引言、方法、实验和结论中是否保持一致?
XtraGPT 的动机正是从这个错位开始的。研究团队给出的典型场景是:让通用 LLM 加强一段 motivation,它可能只是换一种更漂亮的说法,却没有补上真正缺失的「why」。而理想的修改应该能补充 rationale、连接 contribution,并考虑论文面向的读者。
也就是说,学术论文修改不是普通文本润色任务。它至少有三个当前 LLM 写作工具经常忽略的缺口:
Scholarly rigor :模型提升了表层流畅度,但 claim-evidence 链接、motivation 强度、contribution 清晰度仍然没有被真正处理。
Document context :大多数 prompt 是孤立的,模型改某一段时常常忘了引言里的 framing、方法里的假设、实验里的故事线。
Author control :「写得更好」不是一个真正可执行的学术修改指令。作者需要表达的是:这段到底要优化哪个学术标准。
XtraGPT 不是把这些问题简单归结为「模型还不够大」,而是把它们看作写作接口和训练目标的问题。
这不是「AI 代写论文」,而是 revision-only 的协作系统
在学术写作 AI 这件事上,最容易滑向的方向是端到端生成。
给一个 idea,让模型自动生成摘要、引言、方法、实验、结论。听起来高效,但它也带来三个显而易见的风险:
第一,研究者可能变得被动。
如果 AI 替人完成从构思到成文的大部分工作,人的努力、判断和批判性思考会被削弱。
第二,论文数量可能继续膨胀。
如果工具可以低成本批量生成表面完整的论文,顶会本已过载的评审系统只会被进一步压垮。
第三,模型可能偏离科学价值。
它可能生成看似合理、实则空泛的论述,也可能偏离作者真实意图和学术共同体的规范。
XtraGPT 选择了一条相反的路线:
它不是从零写论文,而是只做论文修改 。
作者必须先有自己的想法、实验和初稿。模型只在作者指定的位置上,根据作者的具体指令,结合全文上下文,给出可审阅、可接受或可拒绝的修改建议。
这就是这项工作反复强调的 Human-AI Collaboration (HAC) 。
它的三步协议很简单:
作者在整篇论文 T 中选中一个目标段落 p,并给出自然语言指令 q。
模型基于 (T, p, q) 返回一个修改后的段落 p̂,也就是一个定向 revision。
作者审阅 diff,决定是否采纳、调整或拒绝。
这里有一个很关键的观点:
提供段落 p 不是对任务的简化,而是这个系统的接口本身。
研究者通常知道自己要改哪一段。真正难的不是让模型「找出哪里不好」,而是当作者指出目标后,模型能否生成一个既忠实于指令、又和整篇论文保持一致的修改。
这也是 XtraGPT 和很多「自动论文写作」工具的本质区别。它不是抢走作者的位置,而是把模型放回一个更合适的位置: 定向助手,而不是自动作者 。
20 条学术写作标准,把模糊意图变成可训练目标
学术写作里的指令往往很抽象。
「加强贡献」
「让 motivation 更清晰」
「让方法描述更严谨」
「让实验分析更有说服力」
这些话对作者来说很自然,但对模型来说,如果没有结构化目标,就很容易变成泛泛润色。
XtraGPT 的第一条设计原则是 criteria-guided controllability :把作者的自然语言指令,锚定到一组明确的学术写作标准上。
研究团队整理了覆盖论文六个部分的 20 条 section-level criteria,包括标题、摘要、引言、背景、实验和结论。这些 criteria 来自写作指南、审稿 rubric 和专家修订经验。
这套设计的关键并不是让作者在使用时手动选择某条 criteria。
相反,criteria 主要在训练阶段发挥作用。模型通过大量「指令 - 段落 - 全文 - 修订」样本,学习不同类型的写作意图应该对应什么样的学术修改策略。
到了推理阶段,作者仍然可以用自然语言表达意图。模型则在内部把这种模糊指令映射到更结构化的修改方向。
这让 XtraGPT 不只是会「润色」,而是能更接近「按学术标准修改」。
全文上下文,才是论文修改最重的部分
XtraGPT 的第二条设计原则是 context-aware modeling 。
公式很直接:
其中 q 是作者指令,p 是要修改的段落,T 是整篇论文。
听起来简单,但在论文修改里这件事非常重要。
因为论文不是一堆互不相关的段落。引言里的问题定义,会影响方法部分该如何表述;实验结果会影响结论该如何收束;背景部分的术语,也需要和后文保持一致。
如果模型只看到局部段落,它很容易写出局部顺畅、全局不一致的修改。
XtraGPT 使用 16,384 token 上下文,让模型在训练和推理时都能看到全文。后续消融实验也说明了这一点的重要性:去掉 criteria grounding 会让 LC win rate 下降约 5 分,但去掉全文上下文会下降约 15 分,甚至低于未 fine-tune 的 base model。
这说明,真正让论文修改变难的,不只是「这句话怎么写」,而是「这句话在整篇论文里应该怎么写」。
ReviseQA:从真实投稿中构建论文修改数据
为了训练这样一个模型,研究团队构建了 ReviseQA 。
数据来源是约 7000 篇 ICLR 2024 投稿。论文先通过 Nougat 转换为结构化 markdown,并裁剪到 16k token 以内,以便全文进入上下文窗口。
随后,团队从论文的六个 section 中采样段落,生成 criteria-grounded revision。最终得到约 14 万组 instruction-revision pairs。
这套数据的意义在于,它不是把论文写作当作泛泛的文本生成任务,而是模拟了真实作者的修改流程:
作者有一篇完整论文,选中其中一段,提出一个写作目标,然后得到一个局部但上下文敏感的修改建议。
这也是为什么 XtraGPT 的任务定位很窄,但窄得很有价值。
在 AI 时代,很多工具试图覆盖整个研究流程:自动找 idea、自动写实验、自动生成论文。XtraGPT 关注的则是一个更具体、更高频、也更符合责任边界的场景:
帮助研究者把已有的真实草稿改得更好 。
实验结果:可控修订是否真的有效?
模型训练上,研究团队采用 Controllable Post-Training (CPT) 。
他们在两个 backbone 家族上训练了多个尺寸的模型,包括 Qwen-2.5 和 Phi 系列,从 1.5B 到 14B 不等,以验证效果不是某个模型架构的偶然产物。
评估则使用 length-controlled win rate。原因是 LLM judge 存在明显的 verbosity bias:更长的回答经常会因为看起来更充分而获胜。因此,团队使用长度控制后的偏好评估,尽量把「写得更长」和「改得更好」区分开。
从论文表格来看,经过 criteria-guided post-training 之后,专门面向论文修订的模型在多个 section-level 任务上,相比通用开源底座表现出稳定优势。这个结果说明,论文修改能力并不只是来自通用语言能力本身,也来自训练目标是否足够贴近真实写作流程。
换句话说,当训练目标从「通用聊天」转向「基于全文上下文的可控修订」后,模型确实学到了一种更贴近真实论文修改需求的能力。
段落级修改,能否真正提升整篇论文质量?
一个很自然的问题是:就算模型能把单个段落改得更好,这种局部修改是否真的会提升整篇论文质量?
研究团队进一步做了一个 paper-level 实验。
他们选取 54 篇 ICLR 2024 论文,用 XtraGPT 逐段进行修改,然后使用 AI-Scientist judge 对修改前后的论文进行评分。
结果显示,四个维度都出现提升:
Contribution 提升约 7.9%
Presentation 提升约 12.5%
Soundness 提升约 6.4%
Overall rating 从 6.08 提升到 6.73,提升 0.65
这组结果很符合 XtraGPT 的核心设定:它不是靠一次性生成整篇论文来展示能力,而是通过一系列可控的段落级 revision,逐步累积到 paper-level improvement。
换句话说,学术写作 AI 的价值不一定体现在「一次生成完整论文」,也可以体现在「每次帮作者把一个明确问题改对」。
为什么检测器仍然把 XtraGPT 修改判成人写?
研究团队还做了一个有意思的分析:XtraGPT 修改后的文本,会不会被 AI 文本检测器判为 AI 写作?
在 7000 条 held-out revisions 上,团队测试了两个 zero-shot detector:Fast-DetectGPT 和 Binoculars。结果显示,XtraGPT-7B 和 XtraGPT-14B 的输出都落在人类文本一侧。
这并不是因为系统在刻意规避检测器。
更合理的解释是:XtraGPT 不是从零生成论文,而是在修改人类作者的原稿。作者原有的表达习惯、论证结构和分布特征仍然占主导。模型的作用是局部 refinement,而不是整体替换。
这也再次回到它的协作定位:
保留作者声音,而不是把所有论文改成同一种 AI 腔 。
真正值得讨论的,是 AI 时代的学术写作责任边界
XtraGPT 这篇工作最值得注意的地方,可能不是某一个 benchmark 分数,而是它对学术写作 AI 提出了更谨慎的边界。
如果一个工具从 idea 到成文全流程自动化,它当然可以提高产出速度,但也可能放大学术系统中已经存在的问题:低质量论文泛滥、作者责任模糊、评审系统过载、研究者对 AI 产生依赖。
而 XtraGPT 的定位更像是一种「减速但提质」的工具:
它要求作者先投入真实工作。
它只处理作者指定的局部修改。
它通过 criteria grounding 约束修改方向。
它通过全文上下文保持论文一致性。
它让作者保留最终判断。
这套设计对应了三个更广泛的问题。
第一,researcher passivity 。
端到端 AI 可能削弱人的努力和批判性思维。XtraGPT 要求作者先有想法和 draft,模型只提供 targeted refinement。理想情况下,AI 反馈奖励人的投入,而不是取代人的投入。
第二,quantity inflation 。
不受控制的 AI 写作工具可能批量制造表面漂亮、实质空洞的论文。XtraGPT 因为是 revision-only,前端需要真实的作者劳动,因此更像 filter/refiner,而不是低成本灌水的 accelerant。
第三,alignment with scientific values 。
LLM 可能偏离作者意图和科学规范。XtraGPT 通过 controllability、criteria grounding、全文上下文和作者审阅,试图把修改约束在学术共同体认可的写作标准内。
这也是研究团队在工作中提出的一个更大的 position:
评价 academic-writing AI,不应该只看 ROUGE、BLEU 或普通 win rate,而应该转向衡量它是否遵守科学原则和社区标准。
这句话其实很重要。
因为如果评价指标只奖励流畅、完整、看起来像论文,那么模型自然会朝着「更像论文」的方向优化。可真正的学术价值不只是像论文,而是要有清晰问题、可靠证据、严谨论证、诚实边界和可追溯责任。
PaperDebugger:把这种工作流带进编辑器
XtraGPT 还被用于 PaperDebugger 这样的编辑器内学术写作系统。
相比把论文复制到聊天窗口里反复 prompt,编辑器内的工作流更接近真实写作:作者在原稿中定位问题,模型返回可比较的修改,作者再决定是否接受。