AI在屏幕上流畅对话、生成精美图像的能力已让我们习以为常,仿佛它无所不知。然而,当将其置于真实的手术室环境中,以主刀医生的第一视角要求它判断下一步该使用哪把手术钳时,这位“学霸”模型很可能瞬间茫然。
针对这一核心挑战,EgoCross项目团队聚焦于跨领域第一人称视频问答评估。这项新工作系统性地揭示了当前主流MLLM在外科手术、工业维修、极限运动及动物视角等专业场景下的泛化能力局限。
当前大多数第一人称视频基准都集中于日常起居活动,却忽视了真实世界应用中所存在的巨大领域鸿沟。
来自华东师范大学与INSAIT的研究团队,首次提出了跨领域第一视角视频问答基准EgoCross,覆盖4个高价值专业领域、包含近千条高质量问答对,同时提供闭卷(CloseQA)与开卷(OpenQA)双评测模式,彻底填补了该领域的评估空白。
同时,团队通过对8款主流MLLM的全面测试,揭示了现有模型在跨域场景下的明显短板,并验证了微调(SFT)、强化学习(RL)等方法的改进潜力。
目前该项研究已入选AAAI 2026,所有数据集、代码均已全部开源。
第一人称视频问答(EgocentricQA)的目标,是让模型基于“第一视角视频+问题”的输入,输出正确的自然语言答案。
已有大量研究在这一方向取得进展,但评测几乎仅限于日常生活场景:烹饪、清洁、整理物品……
现实中,更具挑战性的场景往往源于:
手术领域:不仅需识别“切割工具”,还需区分“抓钳”、“手术刀”与“双极电凝镊”等精细器械。同时,手术流程漫长且风险高,识别或预测错误可能带来严重后果;工业领域:涉及复杂的电路板维修流程与精密元件识别;极限运动:第一视角相机剧烈晃动、视角切换频繁,画面常常模糊不清;动物视角:相机随动物进行不规则运动,视角高度与关注区域与人类视角迥异。
这些场景在视觉风格与语义内容上都与“日常家务”存在显著差异,构成了天然的领域迁移(domain shift)挑战。
这引出了本研究的核心问题:✦ 现有在日常场景表现优异的MLLM,能否在这些陌生专业领域中依然保持可靠?✦ 若不能,症结何在?又该如何提升?
1. 首个跨域EgocentricQA基准
精心选取四个具高实用价值的专业领域:外科手术、工业维修、极限运动、动物视角
构建了包含957个问答对的数据集,覆盖15种细粒度任务类型
每个问答对同时提供开放式(OpenQA)与选择式(CloseQA)两种答题格式
2. 全面的模型评估与分析
评测了8个前沿的多模态大语言模型,包括GPT-4.1、Gemini 2.5 Pro等闭源模型,以及Qwen2.5-VL、VideoLLaMA3等开源模型
实验揭示:即便是表现最佳的模型,在跨域场景中CloseQA准确率也低于55%(随机猜测为25%),OpenQA准确率低于35%
从任务类型、领域差异、模型架构等多个维度进行了深度剖析
3. 前瞻性的改进探索
探索了提示学习(Prompt Learning)、监督微调(SFT)与强化学习(RL)等技术路径
发现RL方法能带来最显著的性能提升(平均提高22个百分点)
为未来构建更具泛化能力的模型指明了方向
EgoCross从五个高质量开源数据集中精选视频,涵盖四个专业领域,每个领域均设计了四类核心任务:识别(Identification)、定位(Localization)、预测(Prediction)与计数(Counting),共包含15种子任务,全面评估模型能力。
识别(Identification):如动作序列识别、主导手持物体识别。例如“视频中出现了哪种动物?”“手术过程中未使用到的器械是什么?”
定位(Localization):包括时间定位与空间定位。例如“操作员首次接触示波器是在何时?”“螺丝刀位于画面的哪个区域?”
预测(Prediction):如预测下一个动作、运动方向或流程阶段。例如“手术准备阶段结束后下一步是什么?”“极限运动者接下来的运动方向会是哪里?”
计数(Counting):对动态对象的计数能力。例如“视频中可见多少种不同的电子元件?”
研究团队的实验揭示了若干关键发现:
领域差距显著:模型在日常活动(EgoSchema)上的准确率达73.58%,但在EgoCross跨域场景中骤降至43.14%
专业领域挑战更大:工业维修与极限运动领域对模型最具挑战性,动物视角相对容易处理
任务类型影响:预测类任务(如预测下一步操作)比基础识别任务性能下降更为严重
模型表现差异:通用大模型(如Gemini 2.5 Pro)表现优于专门针对第一人称视频训练的模型,表明当前领域适应方法存在局限性
“*”表示未使用vLLM加速的基线模型,由于vLLM加速会导致轻微性能下降,因此以灰色标注。
研究团队探索了三种改进方法:
提示学习:不改变模型参数,仅在推理阶段加入领域特定的提示和示例,例如在问题前添加“这是一个外科手术/工业维修/极限运动/动物视角的视频,请结合该领域特点进行回答”,通过“提词”方式挖掘模型已有的跨域知识。
监督微调(SFT):以Qwen2.5-VL-7B为基座模型,在目标领域的少量标注视频问答数据上进行全参数微调,使模型参数适应新领域的数据分布;在工业领域上,微调后性能相对基线提升接近20%。
强化学习(RL):基于GRPO(基于生成奖励的策略优化)框架搭建RL流程,具体做法是:对每个问题采样多条候选回答(每条样本约8个),再用一个奖励模型判断答案正确性并打分,以此作为奖励信号对Qwen2.5-VL-7B的策略进行优化。RL在四个领域上平均带来约22个百分点的CloseQA准确率提升,是三种方法中效果最为显著的。
这些研究初步揭示了当前大模型的能力边界,为未来构建更具泛化能力的多模态系统提供了宝贵洞见。
由此可见,要培养一个不仅擅长日常家务、还能在专业场景中“扛起重任”的AI助手,仍需更多技术积淀。毕竟,真实世界的复杂性与多样性,远非厨房所能涵盖。
论文链接:https://arxiv.org/abs/2508.10729
项目主页:https://github.com/MyUniverse0726/EgoCross
挑战赛主页:https://egocross-benchmark.github.io/
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223328.html