当前位置：首页 > 科技资讯 > 正文

英伟达开源OmniVinci：9B全模态大模型重塑视频音频理解

主机测评网
科技资讯
2026-01-21
777

【导读】英伟达推出的全模态大模型OmniVinci，具备精准解析视频和音频的能力，特别在视觉与听觉信号的时序对齐上表现卓越。该模型以90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率达到对手的6倍，大幅降低开销。在视频内容理解、语音转录、机器人导航等应用场景中，OmniVinci能提供高效支持，展现出卓越的多模态应用潜力。

当前，开源大模型领域的竞争已进入白热化阶段。

各方势力在此全力投入，旨在AI的下一个时代抢占关键生态位。一个不容忽视的趋势是：中国大模型正强势主导开源基础模型的「名人堂」。

从DeepSeek在代码与数学推理上的突破性表现，到Qwen（通义千问）家族在多模态和通用能力上的全面领先，它们凭借出色性能和快速迭代，已成为全球AI开发者不可或缺的参考标杆。

当所有人以为，这场开源浪潮将由顶尖互联网巨头和明星创业公司主导时，一个「本该」提供底层支撑的巨头，也亲自入场「加码」了。

没错，作为AI浪潮的最大受益者——英伟达（NVIDIA）——并未放松自研大模型的步伐。

如今，英伟达的大模型矩阵迎来了一块关键拼图。

无需更多前奏，老黄的最新力作正式亮相：最强9B视频音频全模态大模型 OmniVinci，全面开源！

英伟达开源OmniVinci：9B全模态大模型重塑视频音频理解 OmniVinci 全模态大模型视频音频对齐开源AI 第1张

论文链接：https://arxiv.org/abs/2510.15870
代码链接：https://github.com/NVlabs/OmniVinci

在多个主流全模态、音频理解和视频理解榜单上，OmniVinci展示了碾压对手的性能优势：

英伟达开源OmniVinci：9B全模态大模型重塑视频音频理解 OmniVinci 全模态大模型视频音频对齐开源AI 第2张

如果说英伟达之前的开源模型还只是在特定领域进行细分布局，那么OmniVinci的发布，则是一次真正意义上的「全线出击」。

英伟达将OmniVinci定义为「全模态（Omni-Modal）」——一个能够同步理解视频、音频、图像和文本的统一模型。

它的大小仅为 90亿（9B） 参数，却在多项关键的多模态基准测试中，展现了「颠覆性」的性能。

英伟达开源OmniVinci：9B全模态大模型重塑视频音频理解 OmniVinci 全模态大模型视频音频对齐开源AI 第3张

根据英伟达发布的论文，OmniVinci的核心优势极为突出：

性能越级对标： 在多个权威的全模态理解基准上（如DailyOmni、MMAR等），OmniVinci的表现全面超越了包括Qwen2.5-Omni在内的同级别（甚至更高级别）竞争对手。
惊人的数据效率： 这是最关键的一点。OmniVinci达到当前SOTA（顶尖水平）性能，仅使用了0.2T（2000亿）tokens的训练数据。作为对比，其主要竞争对手的数据集规模普遍在1.2T以上。这意味着OmniVinci的训练效率是对手的 6倍！
核心技术革新： 它通过名为全对齐网络（OmniAlignNet ）的创新架构，以及时序嵌入分组（Temporal Embedding Grouping）和约束旋转时间编码（Constratined Rotary Time Embed）等技术，实现了视觉和听觉信号在时序上的高精度对齐。简而言之，它不仅「看懂」视频、「听懂」声音，更能精准把握「何时何地发生何事」的关联。

英伟达的入场，传递了一个明确信号：硬件霸主同样要掌握模型的定义权。