当前位置:首页 > 科技资讯 > 正文

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展

【导读】OmniVinci是英伟达推出的全模态大模型,能够精准解析视频和音频,特别擅长视觉和听觉信号的时序对齐。该模型拥有90亿参数,性能超越同级甚至更高级别的模型,训练数据效率是对手的6倍,大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中,OmniVinci展现出卓越的多模态应用能力。

今年,开源大模型领域竞争异常激烈。

各路人马全力投入,试图在AI的下一个时代抢占生态位。一个不可忽视的趋势是:中国大模型正在强势统治开源基础模型的『名人堂』。

从DeepSeek在代码与数学推理上的惊人表现,到Qwen(通义千问)家族在多模态和通用能力上的全面开花,它们凭借卓越的性能和快速的迭代,已成为全球AI从业者无法绕过的参照物。

就在所有人都以为,这场基础模型开源浪潮将主要由顶尖的互联网巨头和明星创业公司推动时,一个『本该』在旁边『卖水』的巨头,也亲自下场『添柴』了。

是的,作为AI浪潮最大的受益者——英伟达(NVIDIA)——并没有懈怠自研大模型。

如今,英伟达的大模型矩阵迎来了一块重要拼图。

无需更多铺垫,老黄的最新王牌正式登场:最强9B视频音频全模态大模型OmniVinci,强势开源!

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第1张

在多个主流全模态、音频理解、和视频理解榜单上,OmniVinci展示出碾压对手的性能:

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第2张

如果说英伟达之前的开源模型还只是在特定领域细分布局,那么OmniVinci的发布,则是一次真正意义上的『全线压上』。

英伟达对OmniVinci的定义是『全模态(Omni-Modal)』——一个能够同时理解视频、音频、图像和文本的统一模型。

它的大小仅为90亿(9B)参数,却在多项关键的多模态基准测试中,展现了『掀桌子』级别的性能。

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第3张

根据英伟达发布的论文,OmniVinci的核心优势极其凌厉:

  • 性能越级对标:在多个权威的全模态理解基准上(如DailyOmni、MMAR等),OmniVinci的表现全面超越了包括Qwen2.5-Omni在内的同级别(甚至更高级别)的竞争对手。
  • 惊人的数据效率:这是最可怕的一点。OmniVinci达到当前SOTA(顶尖水平)性能,仅使用了0.2T(2000亿)tokens的训练数据。作为对比,其主要竞争对手的数据集规模普遍在1.2T以上。这意味着OmniVinci的训练效率是对手的6倍
  • 核心技术革新:它通过名为全对齐网络(OmniAlignNet)的创新架构,以及时序嵌入分组(Temporal Embedding Grouping)和约束旋转时间编码(Constratined Rotary Time Embed)等技术,实现了视觉和听觉信号在时序上的高精度对齐。简单来说,它不仅『看懂』了视频,『听懂』了声音,更能精准理解『什么声音在什么画面发生』。

英伟达的入局,传递了一个清晰的信号:硬件的王者,同样要掌握模型的定义权。

视频+音频理解: 1+1>2

音频的加入究竟有没有让多模态模型更强?实验给出了明确的回答:有,而且提升非常显著。

研究团队指出,声音为视觉任务引入了全新的信息维度,使模型在视频理解方面受益匪浅。

具体来说,从单纯依赖视觉,到结合音频进行隐式多模态学习,再到引入全模态数据引擎实现显式融合,模型的表现呈阶梯式跃升。

尤其是在采用显式学习策略后,多项指标上都出现了突破性进步,如下表所示,性能几乎是『一路狂飙』。

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第4张

不单只SFT,在后训练阶段加入音频模态也能进一步增强GRPO的效果:

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第5张

全模态Agent,落地场景拉满

视频与音频兼具的全模态模型突破了传统VLM的模态限制,能够更充分地理解视频内容,因此具备更广阔的应用场景。

英伟达OmniVinci全模态大模型:性能卓越,开源助力AI发展 OmniVinci 全模态大模型 开源 AI发展 第6张