阶跃星辰StepAudio 2.5 Realtime登顶中国语音模型榜首
5月10日,据人民财讯消息,阶跃星辰自主研发的端到端实时语音大模型——StepAudio 2.5 Realtime在最新权威评测中强势登顶,位列中国语音模型榜首。
此次登顶,标志着国产实时语音技术的重大突破。在2026年4月的官方测试中,该模型于主观评测、语音问答基准、副语言理解、通用对话、车载场景等五个关键维度全面领先。其主观体验评分高达80.41分,大幅超越GPT-Realtime-1.5的68.01分和Gemini Live的67.16分,同时语音问答基准得分79.80,约为GPT-Realtime-1.5的1.5倍。
深入探究技术细节,StepAudio 2.5 Realtime带来了两大核心突破:一是具备行业领先的副语言深度感知能力,它通过精准捕捉人类交谈中语调、语速、停顿乃至叹息或轻笑等细微信号,真正让实时语音交互具备“活人感”。二是基于超10,000个原生人设打造了百万级人设特征矩阵,并引入“人设RLHF专项训练”,有效解决了传统AI在多轮深度对话中可能出现的“人设崩塌”问题。在智商与情商层面,该模型实现了端到端深度理解与高表现力生成的融合,能从语音生成上实现对整体场景氛围的设定与句子内部的细致打磨。
这一突破对行业格局的影响深远。它意味着国产语音大模型在核心技术指标和真实用户体验上已能与国际顶尖产品正面竞争。在商业化进程方面,StepAudio 2.5 Realtime已全量上线开放平台,并兼容OpenAI Realtime API协议(基于WebSocket),为开发这提供低迁移成本、高附加值的语音极速接入体验。截至当前,阶跃星辰的端到端语音大模型已宣布与腾讯云达成战略合作,共同加速大模型上车进程。目前,阶跃语音大模型技术已实际搭载于吉利银河M9、极氪8X等知名车型,率先实现了端到端语音模型的前装量产,让智能座舱真正具备“主动服务”的能力。
从AI语音的技术趋势来看,实时多模态交互逐渐成为主流。此次StepAudio 2.5 Realtime的突破与量产化应用,树立了原生端侧语音交互的新范式。业界分析普遍认为,其展现的低延迟、情感智能与高可控性,将进一步驱动智能座舱、AI数字人、客服中心以及教育辅导机器人等垂直场景在2026年迎来爆发式增长。