当前位置：首页 > 科技资讯 > 正文

Omnilingual ASR：打破语言界限，让每一种声音都被听见

主机测评网
科技资讯
2026-05-10
604

在7000多种人类语言中，只有少数受到现代语音技术的关注。而今，Meta发布的Omnilingual ASR系统正努力改变这一不平等局面，它能识别1600多种语言，并快速学习新语言。这一开源项目让全球各种语言的声音都有机会在AI领域发声。

想象一下，在世界上7000多种活跃语言中，只有几百种享受过现代语音技术的「青睐」。

绝大多数人类语言的使用者——从非洲部落的土著、亚马逊雨林的族群，到乡野小镇仍讲着古老方言的老人—— 一直生活在数字时代的边缘。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第1张

语音助手、自动字幕、实时翻译，这些AI带来的便利仿佛只为少数「主流」语言而生，其余的语言社区仍被挡在技术大门之外。

这种数字鸿沟如今迎来了破局者。

Meta人工智能研究团队日前发布了Omnilingual ASR系统，一个可自动识别转录1600多种语言语音的AI模型族，让几乎所有人类语言都能被机器「理解」。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第2张

这套系统以开源方式共享给全世界，并能由社区拓展新的语言，让每一种声音都有机会登上AI的舞台。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第3张

从1600种语言开始，但不止于此

Meta此次推出的Omnilingual ASR创造了语音识别覆盖语言数量的新纪录，支持超过1600种语言，其中包括500种此前从未被任何AI系统转录过的语言。

相比之下，OpenAI开源的Whisper模型只支持99种语言，而Omnilingual ASR几乎将这一数字提升了一个数量级。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第4张

对于全球众多使用小语种的人来说，这无疑是一次「数字雪耻」：他们的母语第一次有了被AI流利理解的可能性。

这套系统的识别性能在很多语种上已达到领先水平。

据Meta提供的数据，在所测试的1600多种语言中，有78%的语种其识别错误率（CER）低于10%，若以10小时以上语音数据训练的语种来看，这一比例更是达到95%。

即使对于训练语料极其稀少的低资源语言，仍有36%实现了CER低于10%的效果。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第5张

这些数字表明，Omnilingual ASR不仅覆盖面广，而且在大多数语言上都能给出实用且高质量的转录结果。

然而，这还不是终点。Omnilingual ASR的更大意义在于它打破了以往ASR模型支持语言范围固定死板的局限，让语言覆盖从「定量」走向「可扩展」。

Omnilingual ASR借鉴了大语言模型（LLM）的思路，引入了零样本的「上下文学习」机制。

这意味着即便某种语言最初不在支持列表中，用户也可以通过提供几段该语言的音频和对应文本作为示例，在推理过程中即时让模型学会一种新语言。

无需耗费数月收集大型语料、无需专业深度学习训练，只需简单的少样本学习（few-shot）即可学会新语言。

凭借这种革新性的范式，Omnilingual ASR的潜在语言覆盖能力骤然扩张。

官方表示，理论上该系统可以扩展到超过5400种语言，几乎涵盖所有有文字记录的人类语言！

开源与社区：共同打破语言鸿沟

Omnilingual ASR的另一个显著特点在于其开源和社区驱动的属性。

Meta选择将这一庞大的多语种ASR系统在GitHub上完全开源，采用Apache 2.0许可发布模型和代码。

Omnilingual ASR：打破语言界限，让每一种声音都被听见 ASR 语音识别多语言支持开源第6张

无论是研究人员、开发者还是企业机构，都可以免费使用、修改、商用这套模型，而无需担心繁琐的授权限制。

为了让各语言社区都能受益，Meta不仅开放了模型，还同步释放了一个巨大的多语言语音数据集——Omnilingual ASR语料库。

该语料库包含了350种语料稀缺的语言的转录语音数据，覆盖了许多以前在数字世界中「失声」的语言。

所有数据以CC-BY协议开放提供。

开发者和学者可以利用这些宝贵资源，去训练改进适合本地需求的语音识别模型。

这一举措无疑将帮助那些缺乏大规模标注语料的语言跨越数据门槛，让「小语言」也有大作为的机会。

阿里云服务器免费vps

本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260544304.html

Omnilingual ASR：打破语言界限，让每一种声音都被听见

从1600种语言开始，但不止于此

开源与社区：共同打破语言鸿沟

贝特电子IPO梦碎：监管重拳出击，暴富幻想破灭

OpenAI人才外溢：AI黄埔军校的创新扩散

Omnilingual ASR：打破语言界限，让每一种声音都被听见

从1600种语言开始，但不止于此

开源与社区：共同打破语言鸿沟

贝特电子IPO梦碎：监管重拳出击，暴富幻想破灭

OpenAI人才外溢：AI黄埔军校的创新扩散

相关文章