登录

当智能家居听出“谁在说话”:十方融海产学研项目破解复杂场景说话人识别难题


速读:这并非一个假想场景,而是智能家居进入"千人千面"时代必须回答的技术问题。 说话人识别是通过分析语音信号中的个性特征来确认说话人身份的技术。 项目的技术突破并非来自单一算法的改进,而是多项创新方法的协同作用。
2026年04月02日 11:59

一个家庭的客厅里,语音助手同时面对父亲、母亲和孩子三人的对话指令——"帮我放首歌""今天天气怎么样""我想听故事"——它能否准确分辨出每句话出自谁口,并给出个性化的回应?

这并非一个假想场景,而是智能家居进入"千人千面"时代必须回答的技术问题。日前,深圳十方融海科技有限公司举办了一场专项验收会,对其子公司新智未来委托广东工业大学开展的《复杂场景说话人智能识别技术研发》项目进行全面评审。结果显示,项目全部技术指标均已达成,部分核心数据超出预期目标。

产学研协同解法下,一项"超标"的验收

说话人识别(SpeakerRecognition),又称声纹识别,是通过分析语音信号中的个性特征来确认说话人身份的技术。在金融认证、安防监控、智能家居等领域,它被视为下一代人机交互的关键基础设施。据行业研究机构预测,全球说话人识别市场规模在2025年将达到约20亿美元,并保持高速增长。

然而,在真实家庭场景中实现精准的说话人识别,远比实验室环境复杂得多。家庭成员之间的声学特征差异可能不大,环境噪声(电视声、厨房声响、窗外交通)持续存在,注册样本往往极为有限——普通用户不太可能录制几十段语音来"训练"一个语音助手认识自己。

正是这些痛点,构成了十方融海与广东工业大学产学研合作的核心命题。

验收数据显示,该项目在精度突破、推理响应速度、小样本识别能力、拒识能力等核心项目指标全部达标,且关键性能超出预期:

结项报告书上显示,在5人注册场景下,系统等错误率(EER)较基线方案降低了近8%,超过项目预期的5%目标。EER是声纹识别领域衡量系统整体精度的核心指标,降幅越大意味着误识率和漏识率的综合表现越好。

在小样本自适应学习方面,研究团队研发了融合熵置信度正则化的动态可学习嵌入表示矩阵,解决了传统原型网络在样本极少时中心估计偏移的问题。通俗而言,当只有3条语音样本可供参考时,系统依然能够构建出稳定可靠的用户"声纹画像",而不是因为信息不足而产生严重的识别偏差。

在开放集度量学习方面,团队设计了自适应动态拒识阈值。这一设计使系统在识别已注册用户的同时,能够准确判断出"不认识"的说话人,避免了将陌生人的指令错误地匹配到家庭成员名下。

在推理加速优化方面,团队针对高采样率音频优化了特征提取与模型前向推理流程,使其适配L20高性能算力平台。42毫秒的推理时间意味着,用户说完一句话后,系统几乎在"听到的瞬间"就能完成身份判断,为人机交互的流畅性提供了保障。

项目的技术突破并非来自单一算法的改进,而是多项创新方法的协同作用。

广东工业大学计算机学院在声纹识别领域有持续的研究积累。此次合作中,高校团队承担了基础算法攻关与理论验证工作,而十方融海则提供了明确的应用场景、真实数据与工程化部署条件——这正是产学研合作中"各司其职"的理想状态。

从实验室到客厅:小智AI的落地之路

技术的价值终究要通过产品来检验。

企业技术负责人表示,该研发项目成果将集成至"小智-ESP32"系列产品的后端服务体系中。小智AI是十方融海旗下子公司新智未来自主研发的开源AI语音交互系统。自上线以来,该项目迅速跃居GitHubTrending榜首位,累计吸引超过10万名开发者参与生态建设,接入设备量突破120万台,日均处理对话量达900万条。

2025年12月,新智未来"小智AI"项目成功入选深圳市打造人工智能先锋城市项目扶持计划(第一批)中的"人工智能软件开源奖励专项"。

主题:项目|技术|十方融海|说话人识别