SALMONN家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型video-SALMONN(ICML 2024)的基础上,再次迎来重磅扩容,并在各大音视频理解榜单上霸榜!
全新一代video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型F-16(ICML 2025),以及无文本泄漏基准测试AVUT(EMNLP 2025)正式发布。新阵容在视频理解能力与评测体系上取得全线突破,进一步巩固了SALMONN家族在开源音视频理解大模型领域的领先地位。
图像由Nano-Banana生成
video-SALMONN 2+是首个专注于高质量、完整视频描述的音视频大语言模型。通过原子事件级的评估体系与MrDPO多轮强化学习优化,它大幅减少了信息遗漏和幻觉,在字幕完整性和准确性指标上取得了最佳结果(SOTA)。
研究团队发现,利用该模型大规模生成高质量描述,并将其反哺新模型训练,不仅保持了强描述能力,还显著提升了问答等音视频理解任务的表现。
最终,video-SALMONN 2+在Video-MME、WorldSense、AVUT、Video-Holmes、DailyOmni等音视频理解榜单,以及MLVU、LVBench等静音视频理解榜单上全面领先。72B版本整体性能超越了GPT-4o、Google Gemini 1.5 Pro等闭源巨头。
得益于对音频模态的同步利用,video-SALMONN 2+系列在Video-MME等榜单上,无字幕(端到端真实系统)与有字幕(外挂人工标注或商业语音识别系统生成的理想字幕)之间的性能差距小于2%。这表明,音视频联动能有效增强语义理解能力,并在无人工字幕的视频与具身机器人等场景中具有明显优势。
研究团队以Qwen 2.5-VL 7B为底座构建音视频模型,经上述音视频训练流程及MrDPO训练得到video-SALMONN 2+ 7B。随后,利用该模型对更大规模的音视频数据进行高质量描述标注,并以此为数据源,训练基于Qwen 2.5-VL 3B/72B的音视频大模型,最终获得video-SALMONN 2+ 3B/72B。实验显示,相比仅用原始标注数据训练的基线,新模型在视频理解能力上实现了全面提升。
问题:表演者为什么想成为黑山公民?选择:
A. 因为黑山是个美丽的国家
B. 因为他想住在一个名字匹配他肤色的国家
C. 他想成为一座山
D. 他觉得黑山的人都很有吸引力
E. 他觉得这个国家的名字听起来很酷
video-SALMONN-o1推理:
喜剧演员说欧洲有一个国家叫做黑山。
然后他重复了这个名字,强调它的独特性:“有一个满是白人的国家,叫做黑山。”
他表示自己很想成为其中一员,甚至开玩笑说要把国籍改成黑山。
他想成为黑山公民的理由是:那是一个美丽的地方,而且名字与他的肤色相符。
因此,答案是B. 他想生活在一个与自己肤色相符的国家
问题:表演者谈到了直男在照片中的习惯。为什么观众会笑呢?请从以下选项中选择:
A. 表演者的衬衫很好笑。
B. 表演者让观众想起了他们的朋友。
C. 观众感到被冒犯了,于是尴尬地笑了。
D. 表演者是女性,觉得取笑直男很有趣。
E. 光是想象就觉得好笑,而表演者还把它演出来了。
video-SALMONN-o1推理:
表演者在开直男的玩笑,说他们拍照时喜欢抬着下巴摆姿势。
然后他亲自模仿了这种姿势,并加以夸张来制造喜剧效果。
观众之所以发笑,是因为他们能够产生共鸣,并觉得这种摆姿势的行为本身就很滑稽。
因此,答案是E. 光是想象就觉得好笑,而表演者还把它演出来了。
问题:这个视频里有什么笑话以及为什么好笑?请逐步详细分析
video-SALMONN-o1推理:
笑点在于:美国副总统乔・拜登写了一本自传。
说话者(很可能是个喜剧演员或观众)说他觉得这本书比实际好得多。
这很有趣,因为它利用了一个常见的观念——政治人物往往会把自己描绘得比他们真正值得的更正面。
说话者暗示拜登的自传好得令人难以置信,这是一种对情境的幽默夸张。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542129.html