当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破

谷歌近日发布了Gemini 2.5 Flash原生音频模型,该模型不仅能够在实时语音翻译中精准保留说话者的语调,还使得人工智能在执行复杂指令和进行多轮对话时,表现得如同人类一般自然流畅。这一重大更新标志着AI技术从简单的“文本转语音”迈向了真正的“拟人化交互”时代。

想象一下这样的场景:

你戴着耳机走在印度孟买繁忙的街头,周围是喧闹的叫卖声和完全听不懂的印地语。

这时,一位当地大叔急匆匆地用印地语向你问路,语速很快,声音中透露出焦急的情绪。

如果是以前,你可能需要慌乱地拿出手机,打开翻译应用,按下录音键,尴尬地把手机递到他面前,然后听着设备发出冰冷、机械的翻译声音。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第1张

Nano Banana Pro制图

但现在,情况完全不同了。

你只需站在原地,耳机里便会直接传来流利的中文翻译:“嘿!朋友,麻烦问一下,火车站是不是往这边走?”

最令人惊叹的是,这句中文翻译不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都被完美地复制了出来!

你可以用中文回应,耳机会自动将你的声音转换成印地语传递给对方,并且保留了你热情的语气。

这不仅是科幻电影中《巴别塔》的再现,更是谷歌本周推出的重磅产品——Gemini 2.5 Flash Native Audio(原生音频模型)所带来的变革。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第2张

今天,我们就来深入探讨这次更新的强大之处。

所谓的「原生音频」,到底强在哪?

许多人可能会疑惑:“现在的手机不都具备朗读功能吗?这有什么特别的?”

这里存在一个巨大的误解。

以往的AI语音交互流程是这样的:接收声音 -> 转换为文本 -> AI处理文本 -> 生成文本回复 -> 再转换为语音输出。

这个过程不仅缓慢,而且在多次转换中,语气、停顿、情感这些人类沟通中至关重要的元素,几乎全部丢失。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第3张

而谷歌此次发布的Gemini 2.5 Flash Native Audio,其核心就在于“Native(原生)”这个词。

它无需先将声音转为文本再转回语音,而是直接处理音频、直接思考、直接生成语音

举个例子,这就像你与外国人交流时,从前需要在大脑中拼命查词典,现在却已经形成了“语感”,能够脱口而出。

此次更新中,谷歌不仅增强了Gemini 2.5 Pro和Flash的文本转语音模型,提升了控制精度,更重要的是,它让实时语音代理(Live Voice Agents)成为现实。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第4张

这意味着什么?

意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)中,你不再是与一个冰冷的机器对话,而是在与一个具备“思考能力”和“听觉能力”的智能体进行实时的思维碰撞

耳机里的「同声传译」,打破语言的巴别塔

在这次更新中,最让普通用户兴奋的莫过于实时语音翻译(Live Speech Translation)功能。

谷歌此次并未空谈,该功能已开始在美国、墨西哥和印度的安卓设备上,通过Google翻译应用进行Beta测试(iOS用户请稍候,即将推出)。

这个功能有两个杀手锏,直击用户痛点:

持续监听与双向对话:真正的「无感」翻译

以往使用翻译软件,最烦人的莫过于需要反复点击“说话”按钮。

现在,Gemini支持持续监听

你可以将手机放在口袋里,戴上耳机,Gemini会自动将周围环境中的多种语言实时翻译成你的母语。

这就像随身携带了一位隐形的翻译官。

而在双向对话模式下,它更加智能。

例如,你会说英语,想与一位说印地语的人交谈。

Gemini能够自动识别说话者。

你在耳机中听到的是英语,而当你说完话后,手机会自动外放印地语给对方听。

你无需手动切换“现在我说”或“现在他说”,系统完全自动处理。

风格迁移:连「情绪」都能翻译

这是最令人震撼的功能——Style Transfer(风格迁移)

传统的翻译是“没有感情”的朗读机器。

但Gemini利用其原生音频能力,能够捕捉人类语言的细微差别。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第5张

如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会充满欢乐;

如果对方语气低沉、犹豫不决,翻译出来的声音也会带着迟疑。

保留了说话者的语调、节奏和音高

这不仅仅是理解语义,这是理解态度

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第6张

在商务谈判或争论场合,这个功能显得尤为重要!

此外,它还支持:

  • 70多种语言和2000多个语言对:覆盖全球绝大多数人的母语。
  • 多语言混合输入:即使对话中夹杂多种语言,它也能同时理解,无需手动切换。
  • 噪声鲁棒性:专门针对嘈杂环境优化,能过滤背景噪音。即使你在喧闹的户外市场,也能清晰听译。

开发者狂喜,这个AI终于「听懂人话」了

对于开发者或希望为企业构建客服AI的人来说,Gemini 2.5 Flash Native Audio带来的三项底层能力提升,无疑是“及时雨”。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第7张

函数调用更精准

以往的语音助手,当涉及查询天气、航班等需要调用外部数据的操作时,常常会卡壳或回答生硬。

现在的Gemini 2.5,知道何时该获取实时信息,并能将查询到的数据无缝融入语音回复中,不会打断对话的流畅性。

在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评估中,Gemini 2.5获得了71.5%的高分,表现突出。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第8张

更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

指令遵循更听话

你是否经常觉得AI难以理解复杂指令?

谷歌此次付出了巨大努力。

新模型对开发者指令的遵循率从84%提升至90%

这意味着,如果你要求AI“以特定格式回答,语气严厉,避免冗长”,它能更准确地执行你的要求。

对于构建企业级服务而言,这种可靠性才是核心竞争力和控制。

对话更丝滑

多轮对话一直是AI的难题。

常常聊着聊着,AI就忘记了之前的内容。

Gemini 2.5在上下文检索方面取得了显著进展。

它能更有效地记住之前的对话,使整个交流过程不仅连贯,而且富有逻辑性。

结合原生音频的低延迟,你会感觉对面真的坐着一个人。

我们离「贾维斯」还有多远?

谷歌的这次更新,实际上传递了一个明确信号:

语音交互正成为下一个时代的入口。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第9张

从Gemini Live到Search Live,再到耳机内的实时翻译,谷歌正将AI从屏幕中解放出来,融入我们的听觉世界。

对于普通用户:语言障碍正被技术消除。

明年(2026年),这一功能将通过Gemini API扩展到更多产品中。

未来,或许我们真的不再需要花费数年时间痛苦地背诵单词,一副耳机就能让我们畅游世界。

对于企业:构建一个能听、会说、能办事、有情感的下一代AI客服,门槛正大幅降低。

彩蛋

除了原生音频模型,谷歌还推出了一个实验性产品——Disco。

这是Google Labs的新探索工具,用于测试未来网络创意。

它内置了基于谷歌最强模型Gemini 3打造的GenTabs功能。

谷歌坦言,目前仍处于早期阶段,并非所有功能都能完美运行。

最令人惊叹的是,它能理解你的需求。

GenTabs通过主动解析复杂任务(依据用户打开的标签页和聊天记录)并创建交互式网络应用程序来协助完成任务,从而优化网络浏览体验。

无需编写任何代码,它就能将你杂乱无章的标签页和聊天记录,“变”成一个专属的交互式应用。

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第10张

想要制定每周餐谱?想教孩子认识行星?

谷歌Gemini 2.5 Flash原生音频模型发布:实时翻译与情感交互的突破 Gemini Flash  原生音频模型 实时语音翻译 拟人化交互 第11张

只需用自然语言告诉它,它会自动生成相应工具,所有数据都有据可查,绝不虚构。

目前macOS版已开放排队,尽管仍是早期实验版,但这无疑将“浏览”提升到了“创造”的层次。

赶快行动,这波未来感十足!

One More Thing

技术进步的脚步常常超乎我们的想象。

昨天我们还在调侃Siri听不懂人话,今天Gemini已开始协助我们进行跨语言的情感交流。

别只是旁观,Gemini 2.5 Flash Native Audio现已在Vertex AI全面上线,Google AI Studio中也已开放试用。

快去亲身体验一下吧!

或许当AI首次用你的语气说出一句外语时,你会真切地意识到——未来已至。

参考资料:

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/