我们早已习惯了AI在屏幕上滔滔不绝、生成美图的景象,它似乎无所不知。但一旦将其“扔进”真实的手术室,让它从主刀医生的第一视角判断下一步应使用哪种钳子,这位“学霸”可能会立刻感到迷茫。
针对此类复杂情境,EgoCross项目团队专注于跨域第一人称视频问答评测。他们揭示出当前多模态大语言模型(MLLM)在外科、工业、极限运动与动物视角等场景下的泛化瓶颈。
目前大多数第一人称视频基准都集中在日常生活活动上,却忽略了真实世界应用中巨大的领域差异。
华东师范大学与INSAIT的研究团队首次提出跨域第一视角视频问答基准EgoCross,覆盖四个高价值专业领域,包含近千条高质量问答对,同时提供闭卷(CloseQA)和开卷(OpenQA)双评测格式,填补了该领域的评估空白。
团队还通过八款主流MLLM的全面测试,揭示了现有模型的跨域短板,并验证了微调(SFT)、强化学习(RL)等方法的改进潜力。
这项研究已入选AAAI 2026,所有数据集、代码已全部开源。
Egocentric Video Question Answering(EgocentricQA)的目标是,在“第一视角视频+问题”的输入下,让模型给出正确的自然语言回答。
尽管已有大量工作在这一方向取得进展,但它们几乎只在日常生活场景中评测模型:做饭、切菜、整理房间……
实际上,更具挑战的场景往往来自:
手术领域:需识别“切割工具”,还需区分“抓钳”、“手术刀”和“双极镊”等精细器械。手术流程长、风险高,识别及预测错误带来的风险极大;工业领域:涉及复杂的电路板维修流程和精细物体识别;极限运动:第一视角相机剧烈抖动、视角切换频繁,画面模糊严重;动物视角:相机随动物做不规则运动,视角高度和关注区域与人类完全不同。
这些场景在视觉风格和语义内容上都与“日常家务”大相径庭,构成天然的领域差异(domain shift)。
这引出了本研究的核心问题:现有在日常场景上表现优秀的MLLM,能否在这些陌生领域中依然可靠?如果不能,问题出在哪?又能如何改进?
1. 首个跨域EgocentricQA基准
精心选择四个具有实际应用价值的专业领域:手术、工业、极限运动、动物视角,构建了包含957个问答对的数据集,覆盖15种细粒度任务类型,每个问答对同时提供开放式(OpenQA)和选择式(CloseQA)两种格式。
2. 全面模型评估与分析
评测了八个最先进的多模态大语言模型,包括GPT-4.1、Gemini 2.5 Pro等闭源模型,以及Qwen2.5-VL、VideoLLaMA3等开源模型。实验揭示:即使是表现最好的模型,在跨域场景中CloseQA准确率也低于55%(随机猜测为25%),OpenQA低于35%。从任务类型、领域差异、模型架构等多个维度进行了深入分析。
3. 前瞻性改进研究
探索了提示学习(Prompt Learning)、监督微调(SFT)和强化学习(RL)等技术。发现RL方法能带来最显著的性能提升(平均提高22%),为未来构建更具泛化能力的模型提供了方向。
EgoCross从五个高质量开源数据集中精选视频,涵盖四个专业领域。每个领域都设计了四类核心任务:识别(Identification)、定位(Localization)、预测(Prediction)和计数(Counting),共15种子任务,全面评估模型能力。
本文由主机测评网于2026-05-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545920.html