阶跃星辰发布StepAudio 2.5 ASR自动语音识别模型：推理速度提升400%，定价骤减90%

速读：阶跃星辰发布StepAudio2.5ASR自动语音识别模型：推理速度提升400%，定价骤减90%2026年04月24日21:19IT之家IT之家4月24日消息，阶跃星辰今日宣布推出新一代自动语音识别模型StepAudio2.5ASR。阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。

2026年04月24日 21:19

IT之家 4 月 24 日消息，阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。

该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域，在推理速度与转写精度两个维度均有显著提升，主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。

传统语音识别模型受限于自回归生成机制，需要逐个 Token 依次输出，效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构，将此前应用在 Step 3.5 Flash 大模型上的 MTP（IT之家注：多 Token 预测）技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token，并通过并行验证机制快速确认结果，打破了传统自回归机制逐个输出的效率瓶颈。

实测数据显示，模型推理速度提升 400%、时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%。以 5 分钟左右的音视频为例，几乎可以实现即时转写。

在转写精度方面，StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上，综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。

针对长音频处理这一语音识别领域的长期痛点，行业内通常依赖“切片-转写-拼接”方案，即把音频切成若干小段分别识别再合并，但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时，可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力，支持端到端一次性读入最长 30 分钟的连续音频，无需分段切割。在 30 分钟满载输入测试中，模型没有出现随时间推移精度衰减的情况。

定价方面，StepAudio 2.5 ASR 仅为 0.15 元 / 小时，约为此前 Step ASR 2 的十分之一。目前，该模型已全量上线阶跃星辰开放平台和 Step Plan，开发者可通过官网体验使用。

关键词 :

推理语音识别 it之家

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

“不好看就退票”服务，能救电影院吗？微信封禁自家“兄弟”红包，打的什么牌？华住，比携程还会捞金？

爱喝无糖饮料的人天塌了：无糖饮料只是无蔗糖但用甜味剂爱喝无糖饮料的人“天塌了”，那些“0蔗糖”乳品、饮料你还敢喝吗？雷军：今天9点欢迎来北京车展小米展台新SU7全拆解版车身非常震撼估值一周翻倍至200亿美元腾讯阿里洽谈投资DeepSeek 日本上榜数量第一！最新亚洲大学排名：清华、北大前二连续7年蝉联前两位迈入百万上下文普惠时代：DeepSeek-V4 模型预览版正式上线并同步开源从纽北封神到闯进VGT殿堂看小米汽车的概念超跑今晚记得抬头看！月球光影魔术“月面X”限时上演华为干昆OS操作系统全球首发：时延降低30% 可靠性提升20倍五维安全再升级！华为干昆ADS 5正式发布：支持车位到车位3.0

主题：