浅议人工智能训练数据的版权透明机制
登录新浪财经APP 搜索【信披】查看更多考评等级
编者按
生成式人工智能快速发展,为内容创作开启了新篇章,同时也带来了版权保护挑战,尤其是人工智能大模型训练数据的版权合规问题日益被关注。本文作者认为,在大模型数据训练的版权使用规则仍未体系性明确的情形下,建立健全数据训练的版权透明机制,可有效提升人工智能版权治理效能。
刘友华 严熙瑶
随着生成式人工智能(AIGC)技术的快速发展及广泛应用,大量训练数据引发了版权合规及治理挑战。版权透明制度适用于生成式人工智能从数据收集、模型训练到内容输出的全流程,通过公开被“接触”与使用的作品或数据情况,可为后续权利实现与版权合规提供有效证明,为实施“选择-退出”机制提供基础。但版权透明机制的实施具有三大现实困境:一是训练数据规模庞大、来源复杂,识别与记录其中每一作品的数据信息,将增加操作成本;二是囿于商业秘密与竞争利益,人工智能大模型企业披露版权信息的意愿和动力不足;三是版权透明机制实现涉及多方主体,需考量信息披露与个人隐私保护、数据安全等利益及平衡。在大模型数据训练的版权使用规则仍未体系性明确的情形下,建立健全数据训练的版权透明机制,可有效提升人工智能版权治理效能。
版权透明制度具有多元价值
在人工智能数据训练中构建版权透明机制,具有以下价值:
一是为实施“选择-退出”机制提供基础。大模型数据训练的合理使用机制既具有合理性,也具有迫切的现实需求。若将符合一定条件的数据训练行为纳入合理使用范畴,“选择-退出”机制将成为平衡技术创新与著作权人意愿的关键闸口。该机制默许合理范围内的作品使用行为,著作权人可以明示退出,但如其无法知晓大模型训练中作品使用情况,“退出权”将事实上被架空而难以实现。在版权透明制度下,披露大模型数据训练情况,著作权人可高效行使“退出权”,同时也可使企业合规审查对象从互联网空间缩小到结构化清单,有利于降低识别和处理权利声明的成本。
二是在实体上刺破“黑箱”,提供证明作品被“接触”与使用的直接证据。当前,司法实践主要通过“实质性相似”来判断人工智能生成物是否侵权,版权透明机制能提供作品被纳入训练数据的证据,即存在“接触”的可能性,简化权利人的举证链条,降低维权成本。此外,透明机制使数据训练具有追溯的可能,囿于其威慑效应,大模型在数据收集与使用时将更为谨慎,从而在源头上减少未经许可使用等侵权行为。
三是在精神上给予作者激励。作品是作者独特思想、情感与人格的延伸。在人工智能数据训练的场景下,作品被转化为匿名数据点,其背后的人格属性被隐藏,将弱化著作权法保护作者人格利益的初衷。在实践中,已出现将“未署名以示尊重”作为核心诉由之诉,反映了创作者群体在数字时代对于精神权利的诉求。在这个意义上,在大模型数据训练中,通过版权透明机制标示作者,有利于回应创作者的精神需求,进一步激发创新动力。
在价值与目标之间寻求平衡
构建版权透明制度需审视现行法律规则、产业生态及技术条件的适配,在多重价值与目标之间寻求平衡。
一是实施成本与制度收益的平衡。信息披露辅助权利人维权的实际效果可能低于预期。一方面,训练数据规模庞大,权利人在单次数据训练中的有限收益,可能难以覆盖其维权过程中付出的时间与经济成本;另一方面,履行全面披露义务意味着需额外承担高昂的合规成本,包括数据溯源、版权识别、信息整理、系统建设与维护等,将给中小企业带来负担,削弱人工智能市场的竞争活力,市场价格随之升高,将限制公众的普惠获取,抑制人工智能产业健康发展。因此,需注重披露成本与收益的平衡。
二是企业合规与产业发展的平衡。版权透明制度是人工智能企业合规的关键环节,能有效防范法律风险,规避因数据来源不明、授权不清而引发的著作权侵权或个人信息侵权纠纷,从而保障企业经营的稳定性。但从另一方面看,严苛的披露一定程度上将增加企业运营成本与法律不确定性,使得合规成本挤占企业资源,反过来抑制技术创新。因此,应考虑透明制度对产业创新生态的影响,在“规范”与“促进”之间建立恰当平衡,避免透明机制的实施抑制行业和产业活力。
三是数据披露与商业秘密平衡。模型训练与训练数据要素往往是企业的核心商业秘密,是其竞争力的来源,透明机制可能引发数据安全与个人信息泄露的连锁风险。另一方面,过度保护商业秘密,将加剧“算法黑箱”。透明制度并不要求全面公开,而是确保必要可问责。如欧盟《人工智能法案》基于风险的分级透明框架,既确保关键领域必要的透明度,又为不同风险级别的商业秘密提供差异化的保护空间,可供借鉴。
探索版权透明动态调适路径
笔者认为,应从法律规制、技术赋能与社会协同三个层面,构建版权透明的动态调适路径。
一是建立风险分级披露制度,为中小企业配置优惠机制。一方面,建立基于场景的四级管理体系。第一、二级侵权风险较小的系统中,多涉及公共领域作品、开源代码、事实性数据等不受版权保护或保护期届满的客体,允许简化披露,仅需提交数据类型概览与公共领域声明,避免过度增加成本与负担。第三、四级侵权风险较大的系统中,多涉及文学艺术等原创性高、市场价值大的作品类型,应详尽披露义务,包括作品名称、作者、来源数据库、使用数量及是否在输出环节保留作品表达性要素等,确保著作权人能精准识别作品使用状态并行使“退出权”。对于涉及个人信息、敏感数据多的系统,应在披露的同时嵌入个人信息保护合规审查双轨制,在备案基础上,筛查剔除敏感信息后披露,以防范版权透明化引发数据安全风险。另一方面,强化对中小企业的扶持,降低其进入透明体系的成本。如对版权透明系统建设予以适当补助或支持,组织常态化合规培训,探索实施柔性监管机制,设置更长的合规宽限期,允许其分阶段、分模块和使用简化的报告模板。
二是技术手段与行业标准相结合,以行业自治推进制度落地。其一,建立健全事前、事中和事后相结合的技术措施。在数据收集与预处理的事前阶段,对明显侵权和高风险内容推行过滤机制,在用户交互端部署提示词过滤器,禁止响应生成侵权内容的指令。在事中阶段,建立便捷、高效的侵权举报渠道,确保侵权通知内容限于必要信息,并公开处理流程与时限。在事后阶段,依据“通知-删除”规则,建立快速响应机制,提升对侵权内容的定位与下架效率。其二,鼓励行业协会、科研机构与企业共同研制训练数据标识和溯源水印等技术规范,如显性标识与隐性标识,尤其是隐性标识,通过嵌入不可感知的溯源代码,为事后追踪内容来源、定位训练批次提供技术可能。
三是建立多元主体参与的监督机制,强化社会协同治理。构建开放、包容的治理生态,创作者、用户、公众等共同参与监督与反馈。其一,建立“训练数据公共备案平台”,集中公示各模型的训练数据来源清单,提供便捷查询与异议通道。其二,鼓励成立大模型训练数据行业协会,吸纳多方代表参与,制定行业准则,开展合规评估与诚信评级。其三,推动形成人工智能时代新型创作伦理与数字文明观,鼓励公众参与创作,培育版权文化和创新生态,推动形成尊重版权的良好氛围。
(作者单位:湘潭大学知识产权学院)
(编辑:刘珊 实习编辑:蔡友良)