北京时间8月29日凌晨,OpenAI通过直播发布了其迄今为止最先进的端对端语音模型(Speech-to-Speech)GPT-Realtime,并宣布该模型的API已全面进入生产环境。与之前的语音AI产品相比,GPT-Realtime不仅性能更优,而且价格更低,旨在帮助开发者更轻松地构建高效、可靠的语音智能体。
随着性能的提升,GPT-Realtime的定价也进行了大幅优化,相较于上一代产品GPT-4o-Realtime-Preview降低了20%。此前,GPT-4o-Realtime-Preview的价格为每百万音频输入tokens 40美元,每百万音频输出tokens 80美元。而GPT-Realtime调整后的价格为每百万音频输入tokens 32美元(缓存输入tokens 0.40美元),每百万音频输出tokens 64美元。这一优化定价策略使得开发者能够以更低的成本构建高效的语音智能体,同时享受更卓越的性能。
OpenAI还改进了对话上下文管理功能,允许开发者灵活设置token限制并一次性截断多轮对话,从而显著降低长会话的成本。
全新的GPT-Realtime模型在性能上实现了重大突破。OpenAI宣称这是其迄今为止最先进的生产级语音模型,在遵循复杂指令、精确调用工具以及生成更自然、富有表现力的语音方面取得了显著进步。
OpenAI表示,GPT-Realtime能够更精准地执行复杂指令,生成更自然、富有表现力的语音,并支持在一句话中无缝切换多种语言。在内部基准测试中,该模型展现出更高的智能水平。与之前的语音AI模型相比,GPT-Realtime在以下方面有了显著提升:
音质与表现力:能够模拟人类语调、情感和语速,支持开发者自定义语气,如“快速且专业”或“温和且体贴”,从而提升用户体验。
智能与理解力:不仅处理文本和语音,还能识别非语言信号(如笑声),并在一句话中灵活切换语言,准确处理字母数字序列。内部测试显示,GPT-Realtime在Big Bench Audio推理测试中的准确率达 82.8%,远超上一代产品GPT-4o-Realtime-Preview在2024年12月的65.6%,以及在今年6月3日的81.5%。
指令遵循:指令遵循是可靠智能体的关键功能,GPT-Realtime在这方面也有所增强。在MultiChallenge Audio测试中,GPT-Realtime指令执行准确率达30.5%,能够更可靠地遵循开发者指定的提示,例如在支持电话中逐字朗读法律免责声明。这一表现优于上一代产品 GPT-4o-Realtime-Preview在2024年12月的测试值20.6%,以及在今年6月3日的测试值26.5%。
函数调用:为了让语音智能体在现实世界中发挥作用,必须有效使用外部工具。在ComplexFuncBench Audio测试中,GPT-Realtime函数调用准确率达66.5%,并支持异步调用,确保对话流畅不因等待结果而中断。相比之下,GPT-4o-Realtime-Preview在2024年12月的测试值为49.7%,在今年6月3日测试值为58.9%。
除了智能提升外,该模型经过训练能生成更高质量的语音,具备更类人的语调、情感和语速。它能遵循细粒度的指令,例如“快速且专业地讲话”或“以法国口音温和地讲话”,为用户提供更个性化的体验。此外,GPT-Realtime支持图像输入,可识别照片或截图内容。例如,用户可上传截图并要求模型 “读取其中文字”,进一步扩展应用场景。
为展示这些进步,OpenAI发布了两种仅在API中可用的新语音——Cedar 和Marin,展现了最显著的自然语音改进。这一对细节的关注旨在解决行业关键挑战:OpenAI的升级直接致力于打造更具吸引力和更少机器人化的用户体验。
除了新模型外,Realtime API本身现已达到生产级标准。自2024年10月公测以来,OpenAI收集了数千名开发者的反馈,并进行了相应的改进。API的架构通过单一模型直接处理音频,旨在降低延迟并保留语音细节,相较于传统语音到文本和文本到语音的多模型串联管道具有明显优势。
一项关键新增功能是支持远程模型上下文协议(MCP)服务器。这一开放标准简化了AI模型与外部数据的连接方式。开发者现可通过会话配置传递远程MCP服务器的URL,使Realtime API自动处理工具调用,无需手动集成。这简化了将AI模型连接到专有数据源的过程,是构建强大商业智能体的关键步骤,同时优先保障用户数据和隐私。
Realtime API现还支持图像输入,启用多模态对话,智能体可分析并讨论用户看到的内容。系统将图像视为对话中的快照而非实时视频流,确保开发者对模型看到的内容保有控制权。这解锁了诸如让智能体描述照片或读取截图文本等用例。
此外,新增的会话发起协议(SIP)支持允许直接与公共电话网络、PBX 系统和其他企业电话端点集成,便于在呼叫中心等商业环境中部署语音智能体。
早期采用者已见成效。房地产平台Zillow提前获得了Realtime API访问权限,用于驱动其下一代房屋搜索。该公司AI负责人约什·维斯伯格(Josh Weisberg)表示:“它展现了更强的推理能力和更自然的语音,能够处理复杂、多步骤的请求。”
OpenAI此次发布GPT-Realtime模型正值语音AI市场竞争白热化阶段。各大竞争对手正积极推进自身语音技术研发与布局。今年5月,Anthropic为旗下Claude AI推出语音模式;7 月,Meta以4500万美元收购语音初创公司PlayAI;开源社区同样是不容忽视的强大竞争力量;传统科技巨头也在持续投入研发;专业初创公司则在设备端语音处理技术方面发力。
此次 OpenAI通过优化技术让其最先进的语音模型变得更易用、功能更强且更具成本优势这一举措是其在愈发激烈的平台竞争中采取的战略布局。
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440412.html