当前位置：首页 > 科技资讯 > 正文

OpenAI推出gpt-realtime：实时语音模型全面升级

主机测评网
科技资讯
2026-04-29
333

OpenAI推出gpt-realtime：实时语音模型全面升级 gpt-realtime Realtime API 语音对语音模型 AI语音智能体第1张

OpenAI隆重推出其最新成果——gpt-realtime，一款高效、低延迟的语音对语音模型，并同步开放Realtime API。此更新聚焦于减少延迟、提升音质，为开发者打造集MCP服务器支持、图像输入及SIP电话呼叫于一体的AI语音智能体，适用于生产环境。

结合Realtime API与gpt-realtime，实现了单一系统内端到端的语音处理，无需分开串联语音转文本与文本转语音模型。这种架构不仅大幅缩短了响应时间，还保留了语音的微妙差别，对实时语音交互至关重要，因为即使是微小的延迟也可能破坏对话的流畅性。

经过专门训练的gpt-realtime能生成更自然、高质量的语音，稳定执行语气风格指令，如“以同理心语气说话”或“使用专业语气”。新增的合成声音Cedar和Marin，以及对现有声音的更新，都更加逼真。

在理解能力方面，gpt-realtime也取得了显著进步。模型能识别非语言信号，实现一句话中的多语言切换，准确处理跨语言的字母数字序列，支持多种语言。测试结果显示，其在Big Bench Audio上的准确率提升至82.8%，MultiChallenge音频基准测试的得分也从20.6%提升至30.5%。

函数调用的能力也得到了增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。ComplexFuncBench的准确率从49.7%提升至66.5%。此外，系统新增了异步函数调用功能，使语音智能体在等待结果期间能继续对话，这在客户服务和交易场景中尤为重要。

Realtime API也进行了全面升级，更符合生产级需求。开发者现在可将远程MCP服务器直接接入会话，支持图像输入，使应用能基于视觉内容进行对话。SIP支持则让语音智能体能无缝接入现有电话系统。可复用提示功能简化了会话管理，全面的欧盟数据存储支持满足了欧洲部署的合规要求。

早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow启动了语音交互式房产搜索的试点项目，T-Mobile则在探索客户服务中的实时响应场景。两家公司均表示，AI语音智能体正推动交互方式从传统的脚本化自动化向更灵活、更具领域专长的方向转变。

OpenAI还加强了部署安全措施。Realtime API内置分类器可中止有害对话，开发者能通过Agents SDK添加特定领域的安全约束。此外，Realtime API的预设声音有助于降低冒充风险。

目前，gpt-realtime模型与Realtime API已全面开放，所有开发者均可使用。可查阅Realtime API文档与提示指南快速上手，并在Playground中体验全新的gpt-realtime演示版本。

原文链接：https://www.infoq.com/news/2025/09/openai-gpt...

服务器教程阿里云服务器免费服务器

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441412.html

OpenAI推出gpt-realtime：实时语音模型全面升级

通用验证器：AI进化新航标

ChatGPT与Claude：不同路径下的AI未来

OpenAI推出gpt-realtime：实时语音模型全面升级

通用验证器：AI进化新航标

ChatGPT与Claude：不同路径下的AI未来

相关文章