登录

对250万篇生物医学论文核查,发现大量虚假引用现象


速读:对250万篇生物医学论文参考文献合规性审计,覆盖了3年学术出版周期。 2025年发表的带有伪造引用内容的论文数量是2023年的12倍。 Topaz团队分析发现,综述类论文的伪造参考文献数量,比其他类型论文高出57%。 研究人员利用大语言模型比对每条参考文献的文章标题与其DOI、PubMed编号所指向论文的标题是否一致; 且现有撤稿原因均与虚假引用无关,更正内容也未整改被标记的问题参考文献。
作者:李惠钰 来源:中国科学报 发布时间:2026/5/11 15:19:2

对250万篇生物医学论文核查,发现大量虚假引用现象

研究人员对250万篇学术论文开展核查,筛查出近3000篇生物医学论文含有虚假参考文献——这类文献无法溯源至任何正规公开出版物。这一首次对生物医学文献中虚假引用现象的规模进行评估的学术研究,5月9日发表于《柳叶刀》。

对250万篇生物医学论文参考文献合规性审计,覆盖了3年学术出版周期。 图片来源:Aramyan

研究团队设计了一个自动化流程,用于筛选2023年1月至2026年2月刊发在PubMed Central的论文。PubMed Central是一个公开可访问的生物医学文章数据库。

研究表明,在生物医学领域,论文中出现虚假引用的现象正成为一个日益严重的问题。2025年发表的带有伪造引用内容的论文数量是2023年的12倍。

美国哥伦比亚大学的人工智能(AI)研究员、该研究合著者Maxim Topaz表示,该研究得出的数据只是保守的低估值。“我们筛查出的只是真实乱象的下限,如今只窥见了冰山一角。”

英国数字科学公司Digital Science的主管Kathryn Weber-Boer对此表示认同。她称这项研究为破解虚假引用问题迈出的开创性一步。

《自然》4月发布的一项分析报告估算,2025年刊发的论文中,约1.6%至少包含一条看似不存在的参考文献。

Topaz团队开发了一套检测系统,逐篇核查250万篇论文附带的1.256亿条参考文献,并重点分析其中9700万条拥有有效数字对象标识符(DOI)或PubMed数据库编号的文献。DOI是由出版商和预印本平台分配的由字母和数字组成的唯一字符串。

研究人员利用大语言模型比对每条参考文献的文章标题与其DOI、PubMed编号所指向论文的标题是否一致;同时在四大学术数据库——PubMed、Crossref、OpenAlex、谷歌学术中交叉检索。若某条参考文献标题在所有数据库中均无收录,即判定为伪造文献。

分析结果显示,有2564篇论文含存在1至2条伪造参考文献,还有246篇论文存在3条及以上伪造参考文献。

Weber-Boer指出:“这些虚假引用究竟是AI生成还是人为编造,目前尚无定论。但问题增速如此之快,足以说明生成式AI 是重要诱因。”

在对500条疑似虚假引用进行人工复核后,3名独立评审专家确认,七成被标记引用确属伪造。

不过,本次分析可能低估了含虚假引用的论文总量。Weber-Boer解释,谷歌学术并非可靠的文献核验渠道——部分伪造参考文献虽能在该平台检索到,却无法追溯到真实正规出版物。

Topaz团队分析发现,综述类论文的伪造参考文献数量,比其他类型论文高出57%。其中有28项临床试验研究、79篇系统综述含有虚假引用。Topaz称,这类文献最终会被纳入临床诊疗指南,是最令人担忧的隐患。

在该研究中,被标记出的问题论文中,仅有1.6%被撤稿或更正;且现有撤稿原因均与虚假引用无关,更正内容也未整改被标记的问题参考文献。

Topaz建议,期刊出版商应在同行评审前,将参考文献自动核验纳入稿件投稿流程,杜绝问题文献流入评审环节。

相关论文信息:https://doi.org/10.1016/S0140-6736(26)00603-3

主题:论文|参考文献