当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元

谷歌发布Gemini 2.5 Flash原生音频模型,实现实时语音翻译与AI自然交互。这一更新标志着AI从「文本转语音」进入「拟人化交互」时代。

设想这样一个场景:

你戴着耳机漫步在印度孟买的喧嚣街头,四周充斥着听不懂的印地语叫卖声。

突然,一位大叔急匆匆地用印地语询问你路线,语速快,语气焦急。

以往,你可能得手忙脚乱地打开手机,启动翻译应用,再尴尬地把手机递到他嘴边,听着冷冰冰的「机翻」电子音。

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第1张

Nano Banana Pro制图

但如今,一切不同了。

你只需站在原地,耳机里便传来流畅的中文:「嘿!朋友,请问火车站怎么走?

这句话不仅意思准确,甚至完美复刻了大叔的焦急语气

你用中文回答,耳机则自动将你的声音转化为印地语传给他,连你的热情语调都保留了下来。

这不仅是科幻电影《巴别塔》的再现,更是谷歌本周发布的重磅更新——Gemini 2.5 Flash Native Audio(原生音频模型)

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第2张

下面,我们详细探讨这次更新的强大之处。

原生音频:究竟有何过人之处?

有人可能会问:「手机不都有朗读功能吗?这有什么特别的?」

这里有个巨大的误区。

传统AI语音交互流程是:听到声音 -> 转成文字 -> AI处理文字 -> 生成文字回复 -> 转化成语音读出来。

这个过程不仅慢,而且在「转来转去」中,语气、停顿、情感等细节都丢失了。

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第3张

而谷歌的Gemini 2.5 Flash Native Audio,核心在于「Native(原生)」二字。

它无需将声音转成文字再转换回来,而是直接听、直接想、直接说

举个例子,就像你和老外聊天,现在已具备「语感」,脱口而出。

这次更新不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,还带来了更强的控制力。

更重要的是,它让实时语音代理(Live Voice Agents)成为现实。

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第4张

耳机里的「同声传译」,打破语言障碍

这次更新中,最令用户兴奋的莫过于实时语音翻译(Live Speech Translation)功能。

谷歌已将这一功能在美国、墨西哥和印度的安卓设备上通过Google翻译App进行Beta测试(iOS用户敬请期待)。

持续监听与双向对话:真正的「无感」翻译

传统翻译软件需频繁点击「说话」按钮。

Gemini支持持续监听。

你可以把手机揣兜里,戴上耳机,Gemini会自动将周围听到的多种语言实时翻译成你的母语。

风格迁移:情感也能翻译

Style Transfer(风格迁移)功能令人惊艳。

传统翻译是冷冰冰的机器音。

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第5张

如果对方语调上扬、节奏轻快,翻译出的声音也会欢快;

谷歌Gemini 2.5:实时语音翻译,语音交互新纪元 Gemini 2.5 原生音频模型 实时语音翻译 AI交互 第6张

(用于示例的示意图)