当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元

谷歌最新推出的Gemini 2.5 Flash原生音频模型,实现了不仅能够保留原始语调进行实时语音翻译,还能在复杂指令处理和连续对话中达到与真人无异的自然流畅度。这标志着人工智能已从单纯的「文本转语音」阶段跃升到了真正的「拟人化交互」时代。

设想这样一个场景:

你佩戴着耳机,穿行在印度孟买喧嚷的街头,四周充斥着嘈杂的叫卖声和完全陌生的印地语。

忽然,一位当地大叔匆忙向你走来,用急促的印地语询问路线,语气中满是焦急。

若在以往,你恐怕要手忙脚乱地掏出手机,启动翻译应用,按下按钮,尴尬地将手机递到他嘴边,然后听着设备中传出冷冰冰的电子合成音。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第1张

Nano Banana Pro制图

然而现在,一切都截然不同了。

你只需原地站立,耳机中便直接传来流利的中文:「嘿,朋友!麻烦问一下,火车站是不是往这个方向走?

最令人惊叹的是,这句中文不仅语义精准,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了出来!

你用中文回应,耳机便会自动将你的声音转化成印地语传递给对方,甚至保留了你热情的语调。

这不再是科幻电影《巴别塔》中的场景,而是谷歌本周刚刚投下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第2张

今天,我们就来深入剖析这次更新究竟有多强大。

所谓的「原生音频」,到底强在何处?

不少人可能会疑惑:「现在的手机不都有朗读功能吗?这有什么稀奇的?」

这里存在一个巨大的误解。

以往的AI语音交互流程如下:接收声音 -> 转化为文字 -> AI处理文字 -> 生成文字回复 -> 将文字转换为语音输出。

这个过程不仅效率低下,而且在多次「转换」的过程中,语气、停顿、情感这些人类沟通中最微妙的要素,全部丢失了。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第3张

而谷歌此次发布的Gemini 2.5 Flash Native Audio,其核心精髓就在于「Native(原生)」这两个字。

它无需将声音转为文字再转回来,而是直接聆听、直接思考、直接表达

打个比方,这就好比你和一位老外聊天,过去你需要在脑海里疯狂查词典,如今你已经形成了「语感」,能够脱口而出。

这次更新,谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,带来了更强的控制力。

更重要的是,它让实时语音代理(Live Voice Agents)成为了现实。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第4张

这意味着什么?

意味着在Google AI Studio、Vertex AI,乃至搜索(Search Live)中,你不再是与一个冰冷的机器对话,而是在和一个拥有「大脑」、具备「听觉」的智能体进行实时思维碰撞

耳机里的「同声传译」,打破语言的巴别塔

这次更新中,最令普通用户兴奋的,无疑是实时语音翻译(Live Speech Translation)功能。

谷歌这次并未画饼,该功能已开始在美国、墨西哥和印度的安卓设备上,通过Google翻译App进行Beta测试(iOS用户请稍候,即将到来)。

这个功能拥有两大杀手锏,直击痛点:

持续监听与双向对话:真正的「无感」翻译

以往使用翻译软件,最烦人的就是要不停地点击「说话」按钮。

如今,Gemini支持持续监听

你可以将手机揣进口袋,戴上耳机,Gemini会自动将你周围听到的多种语言,实时翻译成你的母语。

这就相当于随身携带了一位隐形翻译官。

而在双向对话模式下,它更加智能。

比如你会说英语,想与一位说印地语的人交流。

Gemini能自动识别说话者是谁。

你在耳机里听到的是英语,而当你开口说完话,手机会自动外放印地语给对方听。

你无需设置「现在我说」、「现在他说」,系统全自动切换。

风格迁移:连「情绪」都能翻译

这是最让我惊叹的功能——Style Transfer(风格迁移)

传统翻译是「莫得感情」的朗读机器。

但Gemini借助其原生音频能力,能够捕捉人类语言的细微差别。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第5张

如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会是欢快的;

如果对方语气低沉、犹豫,翻译出来的声音也会带着迟疑。

保留了说话者的语调、节奏和音高

这不仅仅是听懂意思,更是听懂态度

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第6张

在商务谈判或情绪激动时,这个功能简直至关重要!

此外,它还支持:

  • 70多种语言和2000多个语言对:覆盖了全球绝大多数人的母语。
  • 多语言混输:即使在一场对话中混杂着几种不同的语言,它也能同时理解,无需手动切换。
  • 噪声鲁棒性:专门针对嘈杂环境优化,过滤背景音。哪怕你在喧嚣的户外市场,也能听得一清二楚。

开发者狂喜,这个AI终于「听懂人话」了

如果你是开发者,或者想为企业构建客服AI,这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升,绝对是「及时雨」。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第7张

函数调用更精准

以往的语音助手,一旦涉及查天气、查航班这类需要调用外部数据的操作,很容易卡壳或回答得很生硬。

现在的Gemini 2.5,知道何时该去获取实时信息,并且能把查到的数据无缝地编织进语音回复里,不会打断对话的流畅感。

在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中,Gemini 2.5拿下了71.5%的高分,遥遥领先。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第8张

更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

这意味着,它能真正充当一个靠谱的「办事员」,而不是一个只会陪聊的「傻白甜」。

指令遵循更听话

你是否经常觉得AI听不懂复杂的指令?

谷歌这次下了狠功夫。

新模型对开发者指令的遵循率从84%提升到了90%

这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它能更精准地执行你的要求。

对于构建企业级服务来说,这种可靠性才是核心竞争力。

对话更丝滑

多轮对话是AI的老大难问题。

聊着聊着,AI就忘了前面说过啥。

Gemini 2.5在检索上下文方面取得了显著进步。

它能更有效地记住之前的对话内容,让整个交流过程不仅连贯,而且具有逻辑性。

配合上原生音频的低延迟,你会感觉对面真的像坐了一个人。

我们离「贾维斯」还有多远?

谷歌这次的更新,其实是在传递一个明确的信号:

语音交互正在成为下一个时代的入口。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第9张

从Gemini Live到Search Live,再到耳机里的实时翻译,谷歌正在把AI从屏幕里解放出来,塞进我们的耳朵里。

对于普通用户:语言的障碍正在被技术铲平。

明年(2026年),这一功能将通过Gemini API扩展到更多产品中。

未来,也许我们真的不再需要花费数年时间痛苦地背单词,一个耳机就能让我们走遍天下。

对于企业:构建一个能听、能说、能办事、有情绪的下一代AI客服,门槛正在大幅降低。

彩蛋

除了原生音频模型外,谷歌还丢出个核弹级实验产品——Disco。

它是来自Google Labs的新发现工具,用于测试未来网络的想法。

它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs。

谷歌直言,目前还处于早期阶段,并非所有功能都能完美运行。

最牛的地方在于,它能看懂你的需求。

GenTabs通过主动理解复杂任务(通过用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,从而帮助浏览网络。

不用写一行代码,它直接把你乱七八糟的标签页和聊天记录,「变」成一个专属的交互式App。

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第10张

想做周餐计划?想教孩子认识行星?

谷歌Gemini 2.5 Flash原生音频模型:实时语音翻译与拟人化交互开启AI新纪元 Gemini Flash 原生音频模型 实时语音翻译 拟人化交互 第11张

跟它说人话就行,它自动给你生成工具,所有数据都有据可查,绝不瞎编。

目前macOS版已经开放排队了,虽然还是早期实验版,但这绝对是把「浏览」变成了「创造」。

赶紧冲,这波未来感拉满了!

One More Thing

技术进步的速度往往超乎我们的想象。

昨天我们还在嘲笑Siri听不懂人话,今天Gemini已经开始帮我们进行跨语言的情感交流了。

别光看着,Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出,Google AI Studio里也能试用了。

赶紧去体验一下吧!

或许在听到AI用你的语气说出第一句外语时,你会真切地感受到——未来已来。

参考资料:

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/