当前位置:首页 > 科技资讯 > 正文

OpenAI推出gpt-realtime:实时语音模型全面升级

OpenAI推出gpt-realtime:实时语音模型全面升级 gpt-realtime Realtime API 语音对语音模型 AI语音智能体 第1张

OpenAI隆重推出其最新成果——gpt-realtime,一款高效、低延迟的语音对语音模型,并同步开放Realtime API。此更新聚焦于减少延迟、提升音质,为开发者打造集MCP服务器支持、图像输入及SIP电话呼叫于一体的AI语音智能体,适用于生产环境。

结合Realtime API与gpt-realtime,实现了单一系统内端到端的语音处理,无需分开串联语音转文本与文本转语音模型。这种架构不仅大幅缩短了响应时间,还保留了语音的微妙差别,对实时语音交互至关重要,因为即使是微小的延迟也可能破坏对话的流畅性。

经过专门训练的gpt-realtime能生成更自然、高质量的语音,稳定执行语气风格指令,如“以同理心语气说话”或“使用专业语气”。新增的合成声音Cedar和Marin,以及对现有声音的更新,都更加逼真。

在理解能力方面,gpt-realtime也取得了显著进步。模型能识别非语言信号,实现一句话中的多语言切换,准确处理跨语言的字母数字序列,支持多种语言。测试结果显示,其在Big Bench Audio上的准确率提升至82.8%,MultiChallenge音频基准测试的得分也从20.6%提升至30.5%。

函数调用的能力也得到了增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。ComplexFuncBench的准确率从49.7%提升至66.5%。此外,系统新增了异步函数调用功能,使语音智能体在等待结果期间能继续对话,这在客户服务和交易场景中尤为重要。

Realtime API也进行了全面升级,更符合生产级需求。开发者现在可将远程MCP服务器直接接入会话,支持图像输入,使应用能基于视觉内容进行对话。SIP支持则让语音智能体能无缝接入现有电话系统。可复用提示功能简化了会话管理,全面的欧盟数据存储支持满足了欧洲部署的合规要求。

早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow启动了语音交互式房产搜索的试点项目,T-Mobile则在探索客户服务中的实时响应场景。两家公司均表示,AI语音智能体正推动交互方式从传统的脚本化自动化向更灵活、更具领域专长的方向转变。

OpenAI还加强了部署安全措施。Realtime API内置分类器可中止有害对话,开发者能通过Agents SDK添加特定领域的安全约束。此外,Realtime API的预设声音有助于降低冒充风险。

目前,gpt-realtime模型与Realtime API已全面开放,所有开发者均可使用。可查阅Realtime API文档与提示指南快速上手,并在Playground中体验全新的gpt-realtime演示版本。

原文链接:https://www.infoq.com/news/2025/09/openai-gpt...