OpenAI发布实时API，AI实时语音时代如何抢占风口？

速读：这是GPT-4o发布之后，OpenAI在实时语音交互能力上的最新进展。 GPT-4o所展现出的实时语音交互能力让外界印象深刻。此前，实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音（STT-LLM-TTS）——方法来进行的。语音处理这个技术难题被攻下后，大模型领域的头部玩家们已经开始用脚投票了。首先，语音输入经过RTC传输到服务器，服务器端的多模态大模型接收到语音后开始预处理，这里的预处理主要包含了音频的3A，例如语音的降噪、增益控制、回声消除等操作，使得后续的语音识别更加准确，让大模型更能听懂用户说的话；

2024年10月14日 09:13

摘要

实时互动与 AI 结合的所有想象力，都会展现在今年的 RTE 大会上。

10 月 2 日，OpenAI 发布了实时 API 公开测试版，用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后，OpenAI 在实时语音交互能力上的最新进展。

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟，平均 320 毫秒的反应时间，让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟，也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间，OpenAI 发布的实时 API 公开测试版，则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体，这像是给所以 AI 应用开发者的一个信号，大模型发展近两年后，基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份：LiveKit、Twilio，以及 Agora。值得一提的是，前几年曾经爆火的 ClubHouse，背后的技术提供方就是 Agora，其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场，声网则已经俨然是中国市场中 RTC（实时音视频，Real-time Communications）能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后，发展多年的 RTC 技术作为一项基础能力，已经逐渐靠近实时多模态大模型发展浪潮的核心。

01 RTC 是实时多模态大模型的必由之路

无可置疑的，大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前，实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音（STT-LLM-TTS）——方法来进行的。现在得益于大模型自身能力的进化，端到端实时多模态模型能够直接处理语音，这与传统的三步骤处理方法相比，响应速度要提升很多，这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后，大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月，Character AI 推出新的语音功能，用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示，新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后，微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面，允许完全动态的交互。

而在国内的大模型领域，智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能，该功能让用户能够通过应用程序进行语音和视频互动，整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话，还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用，比如协助学习、辨识物品等。

而在智谱清言新功能上线同日，科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP，星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破，让整体交互体验更自然、更具情感。

电影《Her》中的场景，似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示，或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中，「实时」与「AI」一样重要，甚至作为一场与 AI 的对话体验中最决定性的变量，「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限，端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC（实时音视频，Real-Time Communications）技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径，大概就能辨析 RTC 技术在其中的重要意义：

首先，语音输入经过 RTC 传输到服务器，服务器端的多模态大模型接收到语音后开始预处理，这里的预处理主要包含了音频的 3A，例如语音的降噪、增益控制、回声消除等操作，使得后续的语音识别更加准确，让大模型更能听懂用户说的话；

随后，预处理的语音数据送入模型进行语音识别和理解，系统再通过模型生成回应，这其中还需要通过语音合成技术转换为语音信号；

最后，语音数据通过 RTC 传输到用户端，完成一次完整的语音交互。

主题：语音|大模型|GPT-4o|语音交互|实时多模态大模型