全行业都在测语音AI"接话准不准",但从没人问过:它真的听懂了吗?
先说一个数字。
超过40%。
这是当前某主流全模态大模型在语音交互中"蒙对"的比例。也就是说,它每做出10次"正确操作",有4次以上—— 理由是错的。
它不是听懂了才回答的。它是碰巧没答错。
这个数字,来自百融语音团队刚刚开源的CoDeTT Benchmark。我们给Gemini3-Pro、GPT-4o-audio、Qwen3-Omni、MiniCPM-o-4.5这些当红明星模型,出了一张从没人出过的卷子。
结果,集体翻车。
一个价值千万的bug,藏在"正确"里
先别急着看数据。我给你讲个真实场景,你就懂了。
一个智能语音坐席正在给客户介绍理财产品,说得正欢。这时候客户咳嗽了一声。
AI停了。安静了两秒。等客户开口。
看起来很贴心对吧?很"智能"对吧?
但真相是:它根本不知道那是一声咳嗽。
它只是检测到"有声音了",然后条件反射般地闭嘴了。如果下一次客户是在跟旁边的同事说话,它也会停。如果是窗外传来一声汽车喇叭,它还是会停。如果客户真的想打断说"我不感兴趣"——它的反应,跟听到咳嗽, 一模一样。
四种完全不同的情况。四种需要完全不同处理方式的场景。但在这个AI的"大脑"里,它们是同一件事——"有动静,闭嘴"。
从外面看,它每次都"做对了"。从里面看,它一次都没"听懂"。
这不是个案。这是整个语音AI行业的系统性盲区。
整个行业都在考一张错误的卷子
为什么这个问题存在了这么久,却没人发现?
因为我们的考试出错了。
目前全行业评测语音交互能力,最主流的方法叫 端点检测 ——判断"用户说完了没有"。说完了就接话,没说完就等着。
一个二分类问题。简单。粗暴。 而且,严重失真。
近两年出现了一些进阶Benchmark,FLEXI测社交场景、Full-Duplex-Bench-v2评多轮任务、MTR-DuplexBench考性能衰减。它们确实比二分类进步了。
但它们有一个致命的共同缺陷:只看"做了什么",从不问"为什么这么做"。
它们能看到"模型沉默了",却无法分辨:这次沉默,是因为正确判断了用户在思考?还是把咳嗽当成了说话?还是把背景噪音当成了用户指令?
这三种沉默,在现有Benchmark里得分完全一样。但在真实通话中,一种是智能,一种是愚蠢,一种是危险。
所有人都在用这张"错误的卷子"打分,然后宣布自己的模型"表现优秀"。
难怪没人发现问题。因为卷子本身就看不出问题。
这件事有多严重?
你可能觉得:就算蒙对了,用户也感知不到啊,结果不是一样的吗?
不一样。非常不一样。
在百融云创的各种业务场景中,智能坐席每天要处理海量实时通话。营销、回访、客服、贷后——每一通电话都是真金白银。
想象一下这些场景:
客户正在犹豫要不要买。 他停顿了三秒,在心里算账。一个"真听懂了"的AI会安静等待,给他思考空间。一个"蒙"的AI可能误判为"用户说完了",急匆匆地接上话,打断了客户正在形成的购买决定。
客户被旁边的同事叫了一声。 他扭头说了句"等一下"。一个"真听懂了"的AI知道这不是对自己说的,继续保持。一个"蒙"的AI可能把这句话当成对话指令,做出莫名其妙的回应。
客户明确说了"你别说了"。 一个"真听懂了"的AI立刻停下。一个"蒙"的AI可能还在犹豫——因为它上次听到类似的声音强度时,判断的是"背景噪音,忽略"。
每一次误判,都是一次转化率的流失、一次客户满意度的损耗、一次合规风险的累积。
乘以日均百万级的通话量。
这不是小问题。 这是一个被"正确的分数"掩盖的巨大隐患。
我们撕开了这个口子
我们做了一个Benchmark,叫 CoDeTT ——Context-aware Decision Benchmark for Turn-Taking Evaluation。
它不测"做了什么"。它测"为什么这么做"。