Meta再遭起诉，爱思唯尔加入“版权之战”

速读：

作者：王方来源：中国科学报发布时间：2026/5/12 15:42:0

又一家学术出版商——爱思唯尔（Elsevier）加入了众多针对人工智能（AI）公司提起诉讼的机构和个人的行列，理由是这些公司未经许可使用受版权保护的作品训练AI模型。

据《自然》报道，出版《细胞》《柳叶刀》等数千种期刊的爱思唯尔，于5月5日在美国纽约南区法院参与发起针对科技公司Meta及其首席执行官马克·扎克伯格的集体诉讼。本案原告还包括图书出版巨头阿歇特、麦克米伦，以及美国小说家兼律师Scott Turow。

爱思唯尔称自家版权内容被用于训练 AI 模型。图片来源： Kristoffer Tripplaar/Alamy

美国出版商协会在一份声明中表示：“这是大型出版机构首次发起AI版权诉讼，它们有充分事实证明Meta公然侵犯其合法权益。”

出版商指控Meta在研发大语言模型Llama的过程中，擅自获取并复制了受版权保护的出版物内容。Meta发言人表示，公司将“积极应诉、全力抗辩”。

此案与《纽约时报》等媒体起诉AI公司的理由高度相似。部分同类案件已达成和解，但整体而言，使用受版权保护的作品训练大语言模型是否合法，尚未形成明确的司法判例。

尽管AI企业对训练数据集讳莫如深，但外界普遍认为，数十亿网页训练素材中，既包含开放获取论文，也纳入了付费的学术文献。

诉讼指出，Meta训练Llama模型使用了Common Crawl数据集。该数据集通过全网爬虫抓取数十亿网页。原告认为，其中很可能包含未经授权的版权内容，例如学术摘要和付费论文全文。

出版商还指控，Meta从LibGen、Sci-Hub等盗版网站下载并通过种子文件共享学术资源。这两大平台收录海量图书、论文与教材，常年绕过版权限制免费开放，本身就屡遭法律诉讼。

Meta表示将援引美国版权法中的合理使用豁免原则进行抗辩。其发言人称：“AI正在为个人与企业带来变革性创新、生产力提升与创意赋能。法院已有合理判例认定，利用版权内容训练AI可视为合理使用。”

截至目前，美国法院大多支持AI企业的主张，即大语言模型对版权内容的使用方式为“转化性使用”，符合合理使用的判定标准。但2025年两项里程碑式的法院裁决指出，获取并存储盗版内容本身即可构成侵权；若版权方能证明其作品的商业市场因AI模型输出而受到实质性影响，则可推翻合理使用的辩护。

德国柏林独立研究员Stefan Baack表示，学术著作由人类撰写，质量高、信息丰富，对AI公司而言是训练大语言模型的宝贵素材，还能显著提升模型在科学领域的准确性。

部分学者并不反对自己的论文被用于训练AI，因为这能让模型更加专业。科研人员更在意生成式AI如何使用其成果，例如模仿作者的文风、引用文献却不规范署名，而非模型训练。

如今越来越多的出版商与科技企业签约，出售或授权自家文献数据。Baack指出，这种趋势会进一步巩固大型AI巨头的资源优势，却让有志研发开源模型的普通学者更难获取学术内容。