当前位置:首页 > 科技资讯 > 正文

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解

【导读】英伟达推出的全模态大模型OmniVinci,具备精准解析视频和音频的能力,特别在视觉与听觉信号的时序对齐上表现卓越。该模型以90亿参数规模,性能超越同级别甚至更高级别模型,训练数据效率达到对手的6倍,大幅降低开销。在视频内容理解、语音转录、机器人导航等应用场景中,OmniVinci能提供高效支持,展现出卓越的多模态应用潜力。

当前,开源大模型领域的竞争已进入白热化阶段。

各方势力在此全力投入,旨在AI的下一个时代抢占关键生态位。一个不容忽视的趋势是:中国大模型正强势主导开源基础模型的「名人堂」。

从DeepSeek在代码与数学推理上的突破性表现,到Qwen(通义千问)家族在多模态和通用能力上的全面领先,它们凭借出色性能和快速迭代,已成为全球AI开发者不可或缺的参考标杆。

当所有人以为,这场开源浪潮将由顶尖互联网巨头和明星创业公司主导时,一个「本该」提供底层支撑的巨头,也亲自入场「加码」了。

没错,作为AI浪潮的最大受益者——英伟达(NVIDIA)——并未放松自研大模型的步伐。

如今,英伟达的大模型矩阵迎来了一块关键拼图。

无需更多前奏,老黄的最新力作正式亮相:最强9B视频音频全模态大模型 OmniVinci,全面开源!

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第1张

  • 论文链接:https://arxiv.org/abs/2510.15870
  • 代码链接:https://github.com/NVlabs/OmniVinci

在多个主流全模态、音频理解和视频理解榜单上,OmniVinci展示了碾压对手的性能优势:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第2张

如果说英伟达之前的开源模型还只是在特定领域进行细分布局,那么OmniVinci的发布,则是一次真正意义上的「全线出击」。

英伟达将OmniVinci定义为「全模态(Omni-Modal)」——一个能够同步理解视频、音频、图像和文本的统一模型。

它的大小仅为 90亿(9B) 参数,却在多项关键的多模态基准测试中,展现了「颠覆性」的性能。

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第3张

根据英伟达发布的论文,OmniVinci的核心优势极为突出:

  • 性能越级对标: 在多个权威的全模态理解基准上(如DailyOmni、MMAR等),OmniVinci的表现全面超越了包括Qwen2.5-Omni在内的同级别(甚至更高级别)竞争对手。
  • 惊人的数据效率: 这是最关键的一点。OmniVinci达到当前SOTA(顶尖水平)性能,仅使用了0.2T(2000亿)tokens的训练数据。作为对比,其主要竞争对手的数据集规模普遍在1.2T以上。这意味着OmniVinci的训练效率是对手的 6倍
  • 核心技术革新: 它通过名为全对齐网络(OmniAlignNet )的创新架构,以及时序嵌入分组(Temporal Embedding Grouping)和约束旋转时间编码(Constratined Rotary Time Embed)等技术,实现了视觉和听觉信号在时序上的高精度对齐。简而言之,它不仅「看懂」视频、「听懂」声音,更能精准把握「何时何地发生何事」的关联。

英伟达的入场,传递了一个明确信号:硬件霸主同样要掌握模型的定义权。

视频+音频理解: 协同效应显著

音频的融入是否让多模态模型更强大?实验给出了肯定答案:是的,而且提升非常明显。

研究团队指出,声音为视觉任务引入了全新信息维度,使模型在视频理解方面获得显著增益。

具体而言,从单纯依赖视觉,到结合音频进行隐式多模态学习,再到引入全模态数据引擎实现显式融合,模型的表现呈阶梯式跃升。

尤其在采用显式学习策略后,多项指标上都出现了突破性进步,如下表所示,性能几乎是「直线上升」。

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第4张

不仅在SFT阶段,在后训练阶段加入音频模态也能进一步增强GRPO的效果:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第5张

全模态Agent,应用场景广泛

视频与音频兼具的全模态模型突破了传统 VLM 的模态限制,能够更全面地理解视频内容,因此具备更广阔的应用前景。

例如总结黄仁勋的采访:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第6张

还能转录成文字:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第7张

或者语音指挥机器人导航:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第8张

开源生态的友军,而非对手

在过去的一年里,

DeepSeek凭借其在代码和数学推理上的卓越实力,屡次刷新开源榜单上限,成为「最强理科生」的代表。

Qwen则构建了庞大的模型矩阵,从最小的0.6B到巨无霸1T大模型,是目前生态最完善、综合能力最均衡的「全能选手」之一。

而OmniVinci的开源,更像是一条「鲶鱼」。它用极致效率和强悍性能树立了SOTA研究标杆,搅动了开源大模型战场,激励友军们推出更优模型,共同推动人类走向AGI。

对于「卖铲子」的英伟达而言,开源模型越多人使用 -> 更多人购买GPU,无疑是开源模型的最大受益者。正因如此,英伟达是开源模型团队的坚定友军,而不是对手。

结语:社区共庆,浪潮加速,迈向AGI

英伟达OmniVinci一经发布,如同一块巨石投入本已波澜壮阔的开源海洋,已经在huggingface上斩获一万多的下载量

海外的科技博主们抢先发布视频和文章分享相关技术:

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第9张

英伟达开源OmniVinci:9B全模态大模型重塑视频音频理解 OmniVinci  全模态大模型 视频音频对齐 开源AI 第10张

它既是英伟达「软硬一体」生态的自然延伸,也是对整个AI开源生态的一次强力「助推」。

开源的格局,因此更加明晰。

一方,是以DeepSeek、Qwen为代表的中国开源力量,他们以极快的迭代速度和开放性,构筑了繁荣的开发者基础。

另一方,是手握算力霸权的英伟达,亲自下场,用「技术标杆」和「生态孵化」来作为开源友军加速整个进程。

浪潮已在加速,无人能置身事外。对于每一位AI从业者来说,一个更强、更快、更「卷」的AI时代,才刚刚拉开帷幕。

参考资料:

https://arxiv.org/abs/2510.15870