当前位置:首页 > 科技资讯 > 正文

SALMONN家族再升级:引领音视频理解新纪元

SALMONN家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型video-SALMONN(ICML 2024)的基础上,再次迎来重磅扩容,并在各大音视频理解榜单上霸榜!

全新一代video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型F-16(ICML 2025),以及无文本泄漏基准测试AVUT(EMNLP 2025)正式发布。新阵容在视频理解能力与评测体系上取得全线突破,进一步巩固了SALMONN家族在开源音视频理解大模型领域的领先地位。

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第1张

图像由Nano-Banana生成

新旗舰登场:video-SALMONN 2+

video-SALMONN 2+是首个专注于高质量、完整视频描述的音视频大语言模型。通过原子事件级的评估体系与MrDPO多轮强化学习优化,它大幅减少了信息遗漏和幻觉,在字幕完整性和准确性指标上取得了最佳结果(SOTA)。

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第2张

研究团队发现,利用该模型大规模生成高质量描述,并将其反哺新模型训练,不仅保持了强描述能力,还显著提升了问答等音视频理解任务的表现。

最终,video-SALMONN 2+在Video-MME、WorldSense、AVUT、Video-Holmes、DailyOmni等音视频理解榜单,以及MLVU、LVBench等静音视频理解榜单上全面领先。72B版本整体性能超越了GPT-4o、Google Gemini 1.5 Pro等闭源巨头。

得益于对音频模态的同步利用,video-SALMONN 2+系列在Video-MME等榜单上,无字幕(端到端真实系统)与有字幕(外挂人工标注或商业语音识别系统生成的理想字幕)之间的性能差距小于2%。这表明,音视频联动能有效增强语义理解能力,并在无人工字幕的视频与具身机器人等场景中具有明显优势。

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第3张

研究团队以Qwen 2.5-VL 7B为底座构建音视频模型,经上述音视频训练流程及MrDPO训练得到video-SALMONN 2+ 7B。随后,利用该模型对更大规模的音视频数据进行高质量描述标注,并以此为数据源,训练基于Qwen 2.5-VL 3B/72B的音视频大模型,最终获得video-SALMONN 2+ 3B/72B。实验显示,相比仅用原始标注数据训练的基线,新模型在视频理解能力上实现了全面提升。

推理增强:让模型真正看懂——video-SALMONN-o1(ICML 2025)

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第4张

问题:表演者为什么想成为黑山公民?选择:

A. 因为黑山是个美丽的国家

B. 因为他想住在一个名字匹配他肤色的国家

C. 他想成为一座山

D. 他觉得黑山的人都很有吸引力

E. 他觉得这个国家的名字听起来很酷

video-SALMONN-o1推理:

喜剧演员说欧洲有一个国家叫做黑山。

然后他重复了这个名字,强调它的独特性:“有一个满是白人的国家,叫做黑山。”

他表示自己很想成为其中一员,甚至开玩笑说要把国籍改成黑山。

他想成为黑山公民的理由是:那是一个美丽的地方,而且名字与他的肤色相符。

因此,答案是B. 他想生活在一个与自己肤色相符的国家

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第5张

问题:表演者谈到了直男在照片中的习惯。为什么观众会笑呢?请从以下选项中选择:

A. 表演者的衬衫很好笑。

B. 表演者让观众想起了他们的朋友。

C. 观众感到被冒犯了,于是尴尬地笑了。

D. 表演者是女性,觉得取笑直男很有趣。

E. 光是想象就觉得好笑,而表演者还把它演出来了。

video-SALMONN-o1推理:

表演者在开直男的玩笑,说他们拍照时喜欢抬着下巴摆姿势。

然后他亲自模仿了这种姿势,并加以夸张来制造喜剧效果。

观众之所以发笑,是因为他们能够产生共鸣,并觉得这种摆姿势的行为本身就很滑稽。

因此,答案是E. 光是想象就觉得好笑,而表演者还把它演出来了。

SALMONN家族再升级:引领音视频理解新纪元 SALMONN 音视频理解 推理增强 高帧率 第6张

问题:这个视频里有什么笑话以及为什么好笑?请逐步详细分析

video-SALMONN-o1推理:

笑点在于:美国副总统乔・拜登写了一本自传。

说话者(很可能是个喜剧演员或观众)说他觉得这本书比实际好得多。

这很有趣,因为它利用了一个常见的观念——政治人物往往会把自己描绘得比他们真正值得的更正面。

说话者暗示拜登的自传好得令人难以置信,这是一种对情境的幽默夸张。

核心算法Process DPO