当前位置：首页 > 科技资讯 > 正文

OpenAI发布GPT-RealTime模型，革新语音交互体验

主机测评网
科技资讯
2026-04-25
176

智东西8月29日消息，今日凌晨，OpenAI发布了专为开发人员设计的语音转语音模型GPT-RealTime，并同步更新了包括远程MCP服务器支持、图像输入和SIP（通过会话发起协议）电话呼叫支持的API功能。

据OpenAI称，这是其迄今为止最先进的语音合成模型。GPT-RealTime在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面有所突破。该模型能够自然朗读重复的字母和数字，无缝切换语言，甚至能捕捉笑声等非语言信号。

同日，OpenAI还推出了两款新语音Cedar和Marin，它们将在Realtime API中独家提供。

在定价方面，通用版Realtime API和新的GPT-RealTime模型自今日起对所有开发者开放。GPT-RealTime每百万token音频输入价格为32美元（折合人民币约228元），缓存输入每百万token为0.4美元（折合人民币约2.85元），每百万token音频输出价格为64美元（折合人民币约456元）。与之前的gpt-4o-realtime-preview相比，GPT-RealTime的价格下调了20%。

此外，OpenAI增加了对对话上下文的细粒度控制，允许开发者设置智能token限制，并一次性截断多个回合，从而显著降低长会话的成本。

去年10月，OpenAI发布了Realtime API的公开测试版，至今已有数千名开发者使用该API并提出宝贵建议。

从OpenAI在社交平台上的评论来看，一些用户对这一新模型充满期待，认为它将使语音应用变得更加有趣。然而，也有开发者反映，模型的声音仍然很像机器人，且旧的语音角色听起来只是稍微更具表现力。

OpenAI发布GPT-RealTime模型，革新语音交互体验 GPT-RealTime 语音模型实时API 安全防护第1张

在语音模型领域，国内外进展都在加速。本月初，国内大模型六小虎之一MiniMax就推出了覆盖超40个语种的语音生成模型Speech 2.5。今年年初，豆包App也更新了实时语音通话功能，并免费向用户开放。它能够模仿不同声线，进行情绪感知等。与OpenAI同日，微软推出了首款高度表现力和自然语音生成模型MAI-Voice-1，同一提示词可以生成不同表现的音频。

01.买房、买票、预约医生，都能像朋友一样交谈

OpenAI在博客上展示了与五家公司合作构建语音助理的实例。

首先是美国房地产信息服务平台Zillow。OpenAI的新模型可以与用户自然交谈，帮助他们根据生活方式需求筛选房源或分析购买价格等。

其次是作为T-Mobile的手机助手。AI助手能快速交替对话，即使用户在句子中间打断、开启新话题也不会受影响。

第三个是票务买卖平台StubHub。OpenAI的新模型可以帮助用户付款，并指导他们解决付款过程中遇到的问题。

第四个是帮用户打电话预约医生。在Oscar Health的平台里，这一新模型可以帮用户确认空闲预约时间、预约注意事项和预约地址。

最后是保险科技公司Lemonade。当用户购买汽车时遇到保险问题，AI助手可以为用户提供购买帮助。在对话中获取用户的诉求后，根据内部储存的用户个人和银行卡信息进行购买操作。

02.能捕捉笑声，无缝切换语言调整语气

OpenAI针对GPT-RealTime的音频质量、理解用户指令和遵循指令等方面进行了改进。

为了让语音Agent能持续对话，模型需要像人类一样带有语调、情感和节奏，以创造愉悦的对话体验。博客中提到，GPT-RealTime可以产出更自然的高质量语音，并能遵循细粒度的指令。例如，“快速专业地说话”或“用法国口音富有同情心地说话”。

在理解用户指令方面，GPT-RealTime可以捕捉笑声等非语言线索，在句子中切换语言并调整语气。根据OpenAI内部评估，该模型在西班牙语、中文、日语和法语等语言中检测电话号码等字母数字序列的准确性也更高。

在Big Bench Audio评估中，GPT-RealTime的准确率为82.8%，超过了OpenAI 2024年12月发布的旧模型。Big Bench Audio基准测试是一个用于评估支持音频输入的语言模型推理能力的评估数据集。

OpenAI发布GPT-RealTime模型，革新语音交互体验 GPT-RealTime 语音模型实时API 安全防护第2张

在构建语音转语音应用时，开发者会向模型提供一系列行为指令。包括如何说话、在特定情况下该说什么、该做什么或不该做什么。OpenAI专注于改进模型对这些指令的遵循程度。使得即使是微小的指令也能为模型传递更多信息。

在衡量指令遵循准确性的MultiChallenge音频基准测试中，GPT-RealTime得分为30.5%。相较旧模型的20.6%有显著提升。MultiChallenge评估大模型在处理与人类的多轮对话时的表现。OpenAI从测试题中筛选出适合音频呈现的子集，通过文本转语音（TTS）技术将其转换为语音，进而制作出本次评估的音频版本。

OpenAI发布GPT-RealTime模型，革新语音交互体验 GPT-RealTime 语音模型实时API 安全防护第3张

要构建一个具备语音转语音模型的强大语音Agent，模型需要能够在正确的时间调用正确的工具。OpenAI在三个维度上改进了函数调用：调用相关函数、在适当的时间调用函数以及使用适当的参数调用函数。在测量函数调用性能的ComplexFuncBench音频评估中，GPT-RealTime得分66.5%。超过了旧模型的分数49.7%。

此外，OpenAI还改进了异步函数调用。长时间运行的函数调用将不再中断会话流程。模型可以在等待结果时继续流畅地对话。此功能已在GPT-RealTime中原生提升支持。开发者无需更新代码。