登录

Meta再遭起诉,爱思唯尔加入“版权之战”


速读:
作者:王方 来源:中国科学报 发布时间:2026/5/12 15:42:0

Meta再遭起诉,爱思唯尔加入“版权之战”

又一家学术出版商——爱思唯尔(Elsevier)加入了众多针对人工智能(AI)公司提起诉讼的机构和个人的行列,理由是这些公司未经许可使用受版权保护的作品训练AI模型。

据《自然》报道,出版《细胞》《柳叶刀》等数千种期刊的爱思唯尔,于5月5日在美国纽约南区法院参与发起针对科技公司Meta及其首席执行官马克·扎克伯格的集体诉讼。本案原告还包括图书出版巨头阿歇特、麦克米伦,以及美国小说家兼律师Scott Turow。

爱思唯尔称自家版权内容被用于训练 AI 模型 。图片来源: Kristoffer Tripplaar/Alamy

美国出版商协会在一份声明中表示:“这是大型出版机构首次发起AI版权诉讼,它们有充分事实证明Meta公然侵犯其合法权益。”

出版商指控Meta在研发大语言模型Llama的过程中,擅自获取并复制了受版权保护的出版物内容。Meta发言人表示,公司将“积极应诉、全力抗辩”。

此案与《纽约时报》等媒体起诉AI公司的理由高度相似。部分同类案件已达成和解,但整体而言,使用受版权保护的作品训练大语言模型是否合法,尚未形成明确的司法判例。

尽管AI企业对训练数据集讳莫如深,但外界普遍认为,数十亿网页训练素材中,既包含开放获取论文,也纳入了付费的学术文献。

诉讼指出,Meta训练Llama模型使用了Common Crawl数据集。该数据集通过全网爬虫抓取数十亿网页。原告认为,其中很可能包含未经授权的版权内容,例如学术摘要和付费论文全文。

出版商还指控,Meta从LibGen、Sci-Hub等盗版网站下载并通过种子文件共享学术资源。这两大平台收录海量图书、论文与教材,常年绕过版权限制免费开放,本身就屡遭法律诉讼。

Meta表示将援引美国版权法中的合理使用豁免原则进行抗辩。其发言人称:“AI正在为个人与企业带来变革性创新、生产力提升与创意赋能。法院已有合理判例认定,利用版权内容训练AI可视为合理使用。”

截至目前,美国法院大多支持AI企业的主张,即大语言模型对版权内容的使用方式为“转化性使用”,符合合理使用的判定标准。但2025年两项里程碑式的法院裁决指出,获取并存储盗版内容本身即可构成侵权;若版权方能证明其作品的商业市场因AI模型输出而受到实质性影响,则可推翻合理使用的辩护。

德国柏林独立研究员Stefan Baack表示,学术著作由人类撰写,质量高、信息丰富,对AI公司而言是训练大语言模型的宝贵素材,还能显著提升模型在科学领域的准确性。

部分学者并不反对自己的论文被用于训练AI,因为这能让模型更加专业。科研人员更在意生成式AI如何使用其成果,例如模仿作者的文风、引用文献却不规范署名,而非模型训练。

如今越来越多的出版商与科技企业签约,出售或授权自家文献数据。Baack指出,这种趋势会进一步巩固大型AI巨头的资源优势,却让有志研发开源模型的普通学者更难获取学术内容。

主题:出版商|使用受版权保护