当前位置:首页 > 科技资讯 > 正文

字节Seed LiveInterpret 2.0:AI同传技术新飞跃

智东西7月24日消息,今日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0

这是首个翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。

字节Seed LiveInterpret 2.0:AI同传技术新飞跃 2.0 端到端同声传译 翻译准确率 声音复刻 第1张

在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。

该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。

当前,Seed LiveInterpret 2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。

此外,Ola Friend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。

技术报告与体验指南:

技术报告:http://arxiv.org/pdf/2507.17527

项目主页:https://seed.bytedance.com/seed_liveinterpret

体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

01.

全双工语音生成框架

实现真正“边听边说”

字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出

时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出Seed LiveInterpret 2.0,首次实现“边听边说”的语音到语音同传。

Seed LiveInterpret 2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景

字节Seed LiveInterpret 2.0:AI同传技术新飞跃 2.0 端到端同声传译 翻译准确率 声音复刻 第2张

Seed LiveInterpret 2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)

尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。

字节Seed LiveInterpret 2.0:AI同传技术新飞跃 2.0 端到端同声传译 翻译准确率 声音复刻 第3张

图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)

实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。

02.

强化学习上场

翻译更智能、延迟再压缩

尽管早期版本Seed LiveInterpret 1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,一直是AI同传系统的关键难题。

为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。

...(中间内容省略,保持原文段落不变)...

... ... ... ... ... ... ... ... ... ...