当前位置：首页 > 科技资讯 > 正文

SALMONN家族再升级：引领音视频理解新纪元

主机测评网
科技资讯
2026-05-02
775

SALMONN家族在首个通用音频理解模型（ICLR 2024）和首个全要素音视频理解模型video-SALMONN（ICML 2024）的基础上，再次迎来重磅扩容，并在各大音视频理解榜单上霸榜！

全新一代video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型F-16（ICML 2025），以及无文本泄漏基准测试AVUT（EMNLP 2025）正式发布。新阵容在视频理解能力与评测体系上取得全线突破，进一步巩固了SALMONN家族在开源音视频理解大模型领域的领先地位。

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第1张

图像由Nano-Banana生成

新旗舰登场：video-SALMONN 2+

video-SALMONN 2+是首个专注于高质量、完整视频描述的音视频大语言模型。通过原子事件级的评估体系与MrDPO多轮强化学习优化，它大幅减少了信息遗漏和幻觉，在字幕完整性和准确性指标上取得了最佳结果（SOTA）。

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第2张

研究团队发现，利用该模型大规模生成高质量描述，并将其反哺新模型训练，不仅保持了强描述能力，还显著提升了问答等音视频理解任务的表现。

最终，video-SALMONN 2+在Video-MME、WorldSense、AVUT、Video-Holmes、DailyOmni等音视频理解榜单，以及MLVU、LVBench等静音视频理解榜单上全面领先。72B版本整体性能超越了GPT-4o、Google Gemini 1.5 Pro等闭源巨头。

得益于对音频模态的同步利用，video-SALMONN 2+系列在Video-MME等榜单上，无字幕（端到端真实系统）与有字幕（外挂人工标注或商业语音识别系统生成的理想字幕）之间的性能差距小于2%。这表明，音视频联动能有效增强语义理解能力，并在无人工字幕的视频与具身机器人等场景中具有明显优势。

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第3张

研究团队以Qwen 2.5-VL 7B为底座构建音视频模型，经上述音视频训练流程及MrDPO训练得到video-SALMONN 2+ 7B。随后，利用该模型对更大规模的音视频数据进行高质量描述标注，并以此为数据源，训练基于Qwen 2.5-VL 3B/72B的音视频大模型，最终获得video-SALMONN 2+ 3B/72B。实验显示，相比仅用原始标注数据训练的基线，新模型在视频理解能力上实现了全面提升。

推理增强：让模型真正看懂——video-SALMONN-o1（ICML 2025）

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第4张

问题：表演者为什么想成为黑山公民？选择：

A. 因为黑山是个美丽的国家

B. 因为他想住在一个名字匹配他肤色的国家

C. 他想成为一座山

D. 他觉得黑山的人都很有吸引力

E. 他觉得这个国家的名字听起来很酷

video-SALMONN-o1推理：

喜剧演员说欧洲有一个国家叫做黑山。

然后他重复了这个名字，强调它的独特性：“有一个满是白人的国家，叫做黑山。”

他表示自己很想成为其中一员，甚至开玩笑说要把国籍改成黑山。

他想成为黑山公民的理由是：那是一个美丽的地方，而且名字与他的肤色相符。

因此，答案是B. 他想生活在一个与自己肤色相符的国家

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第5张

问题：表演者谈到了直男在照片中的习惯。为什么观众会笑呢？请从以下选项中选择：
A. 表演者的衬衫很好笑。
B. 表演者让观众想起了他们的朋友。
C. 观众感到被冒犯了，于是尴尬地笑了。
D. 表演者是女性，觉得取笑直男很有趣。
E. 光是想象就觉得好笑，而表演者还把它演出来了。
video-SALMONN-o1推理：
表演者在开直男的玩笑，说他们拍照时喜欢抬着下巴摆姿势。
然后他亲自模仿了这种姿势，并加以夸张来制造喜剧效果。
观众之所以发笑，是因为他们能够产生共鸣，并觉得这种摆姿势的行为本身就很滑稽。
因此，答案是E. 光是想象就觉得好笑，而表演者还把它演出来了。

SALMONN家族再升级：引领音视频理解新纪元 SALMONN 音视频理解推理增强高帧率第6张

问题：这个视频里有什么笑话以及为什么好笑？请逐步详细分析
video-SALMONN-o1推理：
笑点在于：美国副总统乔・拜登写了一本自传。
说话者（很可能是个喜剧演员或观众）说他觉得这本书比实际好得多。
这很有趣，因为它利用了一个常见的观念——政治人物往往会把自己描绘得比他们真正值得的更正面。
说话者暗示拜登的自传好得令人难以置信，这是一种对情境的幽默夸张。

核心算法Process DPO

免费服务器性价比vps

本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260542129.html

上一篇
AI农事助手：科技赋能农业，专业服务普惠

下一篇
资本市场风云再起：科技股热度不减，摩尔线程成焦点

相关文章

智能体适应性研究：解锁高效适应的四大象限

国资委新规：细化免责条款，鼓励央企创新投资

ChatGPT三周年：人工智能竞赛再燃，AGI未来待解

停电风波：Waymo无人车停摆，特斯拉借机“补刀”

MiniMax AI业务狂飙，亏损收窄仍待盈利挑战

2025年大语言模型年度回顾：智能变革与未来展望

MiniMax冲刺AGI全球第一股，创新速度引领行业变革

数据价值跃迁：8.0版数据资产管理指南发布