登录

声音鉴定专家:想证明AI语音源自某演员,仅凭声学分析难下结论


速读:声音鉴定专家:想证明AI语音源自某演员,仅凭声学分析难下结论2026年06月08日14:36新京报网2026年,AI侵权成为文娱行业热议话题。 新京报:在传统案件中,声音鉴定的基本原理是什么? 新京报鉴定技术能否判断“这段音频是AI生成的。 但相关操作规程仍处于技术探索和标准建设阶段,目前国内已有SF/T0119-2021《声像资料鉴定通用规范》和SF/T0122-2021《语音同一性鉴定技术规范》等行业标准,但专门针对AI合成语音鉴定的操作规程尚在建设中。 深识卓鉴:目前国内在AI语音鉴定方面已经形成了一些实践方法。
2026年06月08日 14:36

2026年,AI侵权成为文娱行业热议话题。多起声音维权案例中,当事人面临的共同困境是:如何证明自己的声音被AI“偷”走了?此前新京报专访配音演员张震时,他现场展示了用不同声线模仿男女老幼的绝活——同一张嘴能发出截然不同的声音,如果是用这些声线分别训练的AI,权利人又该如何通过鉴定来确权?

在北京互联网法院法官和律师的采访中,“复杂情况下的侵权认定”同样被列为待解难题。然而,当记者对话北京深识卓鉴实验室科技有限公司司法鉴定中心(以下简称深识卓鉴)时,问题有了不一样的视角。“目前技术条件下确实是困难的,”对方坦言,“但这是一个动态对抗的过程,鉴定技术也在不断进化,以应对新的规避手段。”在这场技术与权利的攻防战中,胜负远未尘埃落定,但用于确权的工具正在变得更强。在真正厘清AI声音侵权边界之前,不妨先听听来自司法鉴定一线的声音。

深识卓鉴的深度伪造鉴定联合实验室。受访者供图 深识卓鉴的深度伪造鉴定联合实验室。受访者供图 【对话】

新京报:在传统案件中,声音鉴定的基本原理是什么?主要比对哪些声学特征?

深识卓鉴: 我们专注于声像资料司法鉴定以及深度伪造领域视频和声音的多模态检测。录音鉴定是比对人说话的“生物特征指纹”,每个人的声音都有独特的物理特征,像指纹一样。传统声音鉴定,就是把“有疑问的那段录音”(检材)和“权利人提供的干净录音”(样本)放在一起,一项一项地比。

鉴定中主要比对的声学特征有以下几点。首先是频域特征,可以理解为声音的“硬件配置”。比如音高,就是声带振动的快慢,振得慢声音就低沉,振得快声音就尖细。还有共振峰,反映声道共鸣特性,它决定了为什么两个人的声音一听就不一样,是识别身份最核心的特征;还有谐波结构,它是声带振动的谐波分布模式。为什么一个人正常说话和捏着鼻子说话,能听出是同一个人但音色不一样?因为谐波分布变了。

其次是时域特征,可以理解为说话的节奏习惯。具体每个人的音节时长和语速模式、停顿位置和时长分布、音高变化曲线(语调模式)不一样。

再次是声音的韵律特征,比如语调走向(升调、降调、平调的使用模式)、重音位置和强度、节奏模式的。

最后是音段特征,比如特定元音和辅音的发音方式、协同发音效应(相邻音素之间的相互影响)、口音和方言特征都可以经由鉴定进行认证。

深度伪造鉴定检测的页面截图。 受访者供图 深度伪造鉴定检测的页面截图。 受访者供图 这些特征的综合构成了个体的语音“生物特征指纹”。在实际鉴定中,我们依据SF/T 0119-2021《声像资料鉴定通用规范》等相关标准,通过听觉感知、声学参数测量、频谱图比对等多种方法进行综合评判。

新京报:鉴定技术如何区分这是“人类刻意模仿的声音”还是“AI合成的声音”?

深识卓鉴: 人类模仿和AI合成在声学特征上存在可识别的差异。人类刻意模仿时,虽然音色、音高可以接近目标,但在精细的韵律模式上往往会出现“不自然的一致性”——比如语调变化过于规律、停顿间隔过于均匀。而真人自然说话时的韵律是带有随机性和情绪波动的。

AI合成语音则呈现出另一种特征:在音段级别(单个音素)的声学参数非常稳定和精确,但在连续语音的过渡段、副语言特征(如呼吸声、唇齿摩擦声)方面要么缺失,要么生成得不自然。此外,AI生成语音在频谱的某些频段会呈现出合成模型特有的统计规律性,这是人类发声系统不可能产生的。

简单来说,人类模仿是在“像”上面下功夫,但保留了大量个人生理特征;AI合成是在“逼真”上追求极致,但会留下算法生成的痕迹。两者的问题出在不同的层面。

新京报:目前国内司法鉴定机构在处理AI语音鉴定时,主要采用哪些方法?是否已有相对成熟的操作规程?

深识卓鉴: 目前国内在AI语音鉴定方面已经形成了一些实践方法。主要有四种:第一种是传统声纹比对的延伸。就是把传统鉴定声音的那套技术,移植到AI语音鉴定上。比如提取AI生成语音里的音高、音色、说话节奏等参数,再跟真实录音样本做比对。第二种是频域异常检测。AI合成语音在生成过程中,会留下一些仪器能看到的异常痕迹,专家通过分析声音的频谱图,就能发现这些不自然的“指纹”。第三种是时域一致性分析。真人说话时,会有自然的呼吸声、唇齿摩擦声等细节。而AI生成的语音,要么把这些细节彻底抹掉了,要么做得特别生硬。鉴定专家分析呼吸声、唇齿音等副语言特征的有无和自然度。第四种是深度学习辅助检测。我们会使用专门训练的AI语音检测模型,来对样本进行判断,它会检测合成语音的生成模型指纹。

但相关操作规程仍处于技术探索和标准建设阶段,目前国内已有SF/T 0119-2021《声像资料鉴定通用规范》和SF/T 0122-2021《语音同一性鉴定技术规范》等行业标准,但专门针对AI合成语音鉴定的操作规程尚在建设中。鉴定机构通常参照现有声像鉴定标准,结合AI检测技术进行综合分析。据我们了解,相关行业组织正在推动AI生成内容鉴定标准的制定。

新京报:一份“同一性认定”的鉴定意见,通常需要达到什么样的技术确信度?

深识卓鉴: 声音同一性鉴定意见通常分为以下几种:认定同一、倾向认定同一、无结论、倾向否定同一、否定同一。顾名思义,这些结论从确定的同一性,到认为具有同一倾向,再到无法判断、认为倾向于没有同一性到确定没有同一性,有多种可能的结果。

做出“认定同一”这样的结论需要满足四个条件。首先是特征符合点充足。在基频、共振峰、韵律模式、发音习惯等多个维度上发现足够数量的符合点。其次是符合点具有个体特异性。第三是差异点可解释,即存在的差异能够通过录音条件、说话状态、录音设备差异等因素合理解释。最后是排除巧合可能:综合评断后,这些特征组合在同一人身上的概率远高于不同人的巧合概率。从技术角度讲,认定同一不是一个简单的百分比阈值,而是一个基于多维度特征综合评判的过程。

新京报:对声音进行鉴定,需要当事人提供什么样的样本?对样本时长、清晰度有何最低要求?

深识卓鉴: 样本的基本要求主要有以下几点。首先是时长要求,理想情况是提供5分钟以上的自然语音样本,供比对用的语音应包含足够的音素(音素是语音里最小的、能区分意思的单位,比如拆分到每一个拼音的声母和韵母)种类,以确保特征覆盖面。

其次是内容上的要求,样本中应包含与检材相同或相近的语句内容(便于相同音素的比对),如条件允许,建议录制与检材内容一致的文本,另外样本应为自然说话状态,要避免刻意模仿或改变发音习惯。

第三个是音质上的要求,比如信噪比(有用信号和背景噪声的比例)应足够高,噪声不应严重遮蔽语音信号,语音语调尽量与检材相仿,避免严重的削波失真(比如录制中声音突然过大,麦克风承受不了这么大的音量,就把超过上限的部分直接切掉了)、混响等。

第四是录音条件记录,建议记录录音设备型号、录音环境、录音距离等信息,如有条件,建议使用与检材相同或相近的录音设备采集样本(比如每次录制不要更换手机或录音机的型号以免产生差异)。

最后是数量上的要求,建议提供多组不同时间、不同场景的样本,以反映说话人的语音特征稳定性,比如间隔20分钟录制3组样本,参照检材中的内容信息。

新京报:如果AI系统学习了某位演员的大量历史录音,并生成了一段“听起来很像该演员”的音频,鉴定技术能否判断“这段音频是AI生成的,且其声纹特征来源于某特定演员”?

深识卓鉴: 如果案件中需要证明特定演员的声音被AI使用,通常需要结合其他证据(如AI模型的训练数据来源、模型参数、开发记录等电子数据证据),声纹鉴定可以作为辅助证据,但仅凭声学分析单独做出“该AI语音源自某特定演员声音数据”的结论,在目前技术条件下是困难的。

新京报:如果侵权方有意调整AI模型的参数(如改变音调、语速、添加噪声等),是否能有效规避声纹识别?

深识卓鉴: 简单的规避手段通常不足以完全消除声音特征中的个体信息。但精心设计的规避(如多参数联合调整+噪声叠加+后处理)确实会显著增加鉴定难度。这是一个动态对抗的过程——鉴定技术也在不断进化以应对新的规避手段。

新京报:在AI声音鉴定领域,哪些技术问题是当前鉴定能力完全无法解决的?

深识卓鉴: 主要有三个方面,首先是精确的声音来源溯源。目前无法仅凭声学分析,精确判断AI语音合成系统使用了哪些具体个人的声音数据。其次是生成模型的精确识别,现在无法精确判断AI语音是由哪个具体的AI系统或模型版本生成的(只能在宏观层面判断“是否为AI生成”),不同的语音合成系统可能产生相似的声学特征。最后是高质量AI语音的可靠检测,当AI语音合成质量极高(如使用高质量训练数据和先进模型)时,检测可靠性会显著下降。

新京报:目前是否存在“反鉴定”的技术对抗手段?鉴定技术能否穿透这种处理?

深识卓鉴: 存在,且正在发展。攻防双方都在不断进步。从实践来看,经过精心设计的反鉴定处理确实会增加检测难度,但同时也可能引入新的可检测异常。目前的态势是持续演进的动态博弈过程。

新京报:从鉴定机构的技术角度,什么情况下你们会明确建议当事人“不要花钱做鉴定”?

深识卓鉴: 以下几种情况我们一般会建议当事人不要进行鉴定。首先是检材条件完全不满足鉴定要求。具体体现在录音时长过短,比如检材语音仅有几秒钟或几个字,可提取的声学特征极其有限,不具备进行有意义的声纹比对的条件;或者信噪比极低,录音环境噪声远大于语音信号,语音被严重遮蔽,即使经过降噪处理也无法恢复出可用于分析的有效语音;还有严重失真或损坏的情况,录音经过多次有损压缩、格式转换或文件损坏,声学特征已不可恢复。在这种情况下,强行鉴定的结果大概率是“无法得出结论”,对当事人而言是无效投入。

其次是鉴定事项本身在技术上不可行。具体体现在仅凭声学分析无法达成鉴定目的。例如,当事人希望证明“这段AI语音是用我的声音数据训练生成的”,目前纯声学分析无法实现精确的声音来源溯源。还有AI合成语音质量极高且无其他辅助证据,体现在当AI语音的合成质量达到当前检测技术难以可靠鉴别的程度,且缺乏其他电子数据证据时,鉴定可能无法得出有价值的结论。

第三种情况是预期结论对案件结果影响不大。有时即使鉴定技术上可行,但当事人对鉴定结论的期望与案件实际需要之间存在偏差。例如:鉴定结论即使是“倾向认定同一”,在缺乏其他证据佐证的情况下,对案件的实质影响有限。或者案件的关键争议焦点并不在声音鉴定上,而是在其他法律事实上。我们会客观告知鉴定的预期结果及其在证据体系中的可能作用,由当事人综合判断是否值得投入。

最后一种情况是样本条件无法满足且无法补充。如果比对样本(已知语音)的条件同样不理想,且无法补充采集更好的样本,则比对的基础就不存在。这种情况我们会明确告知。

新京报:目前声音鉴定的收费标准是怎样的?我们了解到复杂案件可能花费数万元。能否详细拆解一下这个费用是如何计算的?

深识卓鉴: 费用一般分为四个部分。首先是基础检验费,这是鉴定工作的核心费用,覆盖从受理到出具鉴定意见书的完整流程,包括:案件材料审查、检材与样本的采集和处理、声学特征提取与分析、比对检验、综合评断、撰写鉴定意见书等。基础检验费根据鉴定事项类型和检材数量确定。

其次是检材/样本处理费,如涉及录音降噪、增强处理、格式转换等前置工作,可能产生额外处理费用。录音质量越差、处理工作量越大,费用越高。

其三是复杂情况附加费,这里针对案件复杂程度收取,比如检材数量多(多个检材需逐一比对)、录音质量差(高噪声、严重失真、时长过短)、说话人数量多(需对多人分别进行比对)、AI合成/深度伪造相关鉴定(需额外进行AI检测分析)、多人混合声音分离等情况。

最后是差旅和可能需要的现场采集费,如需鉴定人到场进行样本采集或现场勘验,会产生差旅费用。

新京报:声音鉴定每个部分的费用有没有一个价格区间?比如一个样本或检材的处理,在鉴定行业内大概的价格区间是多少?

深识卓鉴: 具体价格区间我们不便透露,因为实际费用需要根据具体案件和工作量等不同情况来评估。

备注:以上回复基于当前(2026年5月)的技术认知和实践经验,AI技术发展迅速,部分观点可能随技术演进而需要更新。

新京报记者 吴龙珍

编辑 吴龙珍

校对 李立军

主题:声音|特征|新京报|深识卓鉴|声音鉴定|受访者供图