登录

​OpenAI发布三款实时语音模型,针对推理对话、实时翻译和实时转录


速读:
2026-05-08 09:17

OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper,各自针对不同的应用场景。

GPT‑Realtime‑2 是 首款 具备 GPT‑5 级推理能力的语音模型。该模型能够处理复杂的请求,并以更自然的方式持续进行对话。它被专门设计用于实时语音交互,能够在用户提问或发出指令时,同时进行推理并保持对话的连贯性。此外,GPT‑Realtime‑2 还可以调用工具、处理用户的打断与更正,根据当前情境作出更贴切的回应。

第二款模型,GPT‑Realtime‑Translate,专注于实时翻译功能,支持 70 多种输入语言和 13 种输出语言。其设计目的在于尽可能地跟上说话者的语速,提供近乎 “同声传译” 的体验。这使得在跨语言通话、会议或直播等场景下,用户能够更流畅地交流。

GPT‑Realtime‑Whisper 是一款实时流式语音转写模型,着重于低延迟的语音转文本能力。该模型能够在说话者讲话的同时即时完成转录,为各类实时产品带来更快、更灵敏的表现。无论是直播字幕的实时生成,还是能跟上讨论节奏的会议记录,这款模型都展现了其广泛的应用潜力。

在接入方式与定价方面,OpenAI 表示这三款新模型已纳入其 Realtime API 体系。GPT‑Realtime‑2 的定价为每 100 万音频输入 Token 收费 32 美元,而每 100 万音频输出 Token 则收费 64 美元。GPT‑Realtime‑Translate 的费用为每分钟 0.034 美元,而 GPT‑Realtime‑Whisper 的定价为每分钟 0.017 美元。开发者可以通过 Playground 直接测试这些新模型,或在已有应用中快速集成。

在生成式 AI 不断朝向多模态和实时交互发展的背景下,OpenAI 这次推出的三款语音模型将为开发者提供更便捷的工具,推动语音智能的应用创新。

划重点:

🔊 GPT‑Realtime‑2 具备 高级 推理能力,实现更自然的实时对话。

🌐 GPT‑Realtime‑Translate 支持多种语言,提供接近同声传译的翻译体验。

📝 GPT‑Realtime‑Whisper 实现低延迟转录,适用于直播和会议记录等场景。

主题:GPT‑Realtime‑2|GPT‑Realtime‑Translate|开发者