EgoCross：首个跨域第一人称视频问答基准，揭示多模态大模型专业领域泛化瓶颈

主机测评网
科技资讯
2026-03-02
510

我们早已习惯AI在屏幕上侃侃而谈、生成惊艳图像，似乎无所不能。但若将其“投放”至真实手术室，让它以主刀医生的第一视角判断下一步该用哪把手术钳，这位“全能学霸”可能会瞬间陷入迷茫。

针对这一挑战，EgoCross项目团队聚焦跨域第一人称视频问答评测，最新研究系统揭示了现有多模态大语言模型在外科、工业、极限运动及动物视角等专业场景下的泛化短板。

EgoCross：首个跨域第一人称视频问答基准，揭示多模态大模型专业领域泛化瓶颈 EgoCross 第一人称视频问答多模态大语言模型跨域泛化第1张

当前绝大多数第一人称视频基准均局限于日常活动，忽略了真实世界应用中巨大的领域差异。

来自华东师范大学、INSAIT的研究团队，首次提出跨域第一视角视频问答基准EgoCross，覆盖手术、工业、极限运动、动物视角四大高价值专业领域，构建了近千条高质量问答对，并同时提供闭卷（CloseQA）和开卷（OpenQA）双评测格式，彻底填补了该领域的评估空白。

同时，团队通过对8款主流多模态大语言模型的全面测试，揭示了现有模型在跨域场景中的明显短板，并验证了监督微调（SFT）、强化学习（RL）等方法的改进潜力。

目前该项研究已入选AAAI 2026，所有数据集、代码均已开源。

打破日常“舒适圈”

Egocentric Video Question Answering（EgocentricQA）的目标，是让模型在“第一视角视频+问题”的输入下，给出准确的自然语言回答。

已有大量工作在这一方向取得了进展，但几乎都只在日常生活场景里评测模型：做饭、切菜、整理房间……

现实中，更具挑战的场景往往来自：

手术领域：不仅要识别“切割工具”，还需要区分“抓钳”、“手术刀”和“双极镊”等精细器械。同时，手术流程长、风险高，识别及预测错误可能带来严重后果；工业领域：涉及复杂的电路板维修流程和微小元件识别；极限运动：第一视角相机剧烈抖动、视角切换频繁，画面模糊严重；动物视角：相机随动物不规则运动，视角高度和关注区域与人类截然不同。

这些场景在视觉风格和语义内容上都与“日常家务”大相径庭，构成天然的领域差异（domain shift）。

这引出了本研究的核心问题：✦ 现有在日常场景上表现优秀的MLLM，能否在这些陌生领域中依然可靠？✦ 如果不能，问题出在哪？又该如何改进？

一个基准，三大贡献

1. 首个跨域EgocentricQA基准

精心选择四个具有实际应用价值的专业领域：手术、工业、极限运动、动物视角

构建了包含957个问答对的数据集，覆盖15种细粒度任务类型

每个问答对同时提供开放式（OpenQA）和选择式（CloseQA）两种格式

2. 全面模型评估与分析

评测了8个最先进的多模态大语言模型，包括GPT-4.1、Gemini 2.5 Pro等闭源模型，以及Qwen2.5-VL、VideoLLaMA3等开源模型

实验揭示：即使是表现最好的模型，在跨域场景中CloseQA准确率也低于55%（随机猜测为25%），OpenQA低于35%

从任务类型、领域差异、模型架构等多个维度进行了深入分析

3. 前瞻性改进研究

探索了提示学习（Prompt Learning）、监督微调（SFT）和强化学习（RL）等技术

发现RL方法能带来最显著的性能提升（平均提高22%）

为未来构建更具泛化能力的模型提供了方向

详解EgoCross：如何构建四大领域的“专业考题”？

EgoCross：首个跨域第一人称视频问答基准，揭示多模态大模型专业领域泛化瓶颈 EgoCross 第一人称视频问答多模态大语言模型跨域泛化第2张

EgoCross从五个高质量开源数据集中精选视频，涵盖四个专业领域，每个领域都设计了四类核心任务：识别（Identification）、定位（Localization）、预测（Prediction）和计数（Counting），共15种子任务，全面评估模型能力。

识别（Identification）：如动作序列识别、主导手持物体识别。如“视频中是哪种动物？”“手术中未出现的器械是什么？”

定位（Localization）：包括时间定位和空间定位。如“操作员何时首次接触示波器？”“螺丝刀在画面哪个区域？”

预测（Prediction）：如预测下一个动作、方向或阶段。如“手术准备阶段后下一步是什么？”“极限运动的下一个运动方向？”

计数（Counting）：对动态对象的计数能力。如“视频中可见多少种不同组件？”

实验揭示模型“水土不服”

EgoCross：首个跨域第一人称视频问答基准，揭示多模态大模型专业领域泛化瓶颈 EgoCross 第一人称视频问答多模态大语言模型跨域泛化第3张

研究团队的实验揭示了几个关键发现：

领域差距显著：模型在日常活动（EgoSchema）上的准确率为73.58%，但在EgoCross跨域场景中骤降至43.14%

专业领域挑战更大：工业和极限运动领域对模型最具挑战性，动物视角相对容易

任务类型影响：预测类任务（如预测下一步操作）比基础识别任务下降更严重

模型表现差异：通用大模型（Gemini 2.5 Pro）优于专门针对第一人称视频训练的模型，表明当前领域适应方法存在局限

前瞻性改进尝试

EgoCross：首个跨域第一人称视频问答基准，揭示多模态大模型专业领域泛化瓶颈 EgoCross 第一人称视频问答多模态大语言模型跨域泛化第4张

“*”表示没有vLLM加速的Baseline，由于vLLM加速会导致轻微的性能下降，因此它以灰色标记。

研究团队探索了三种改进方法：

提示学习：不改模型参数，只在推理阶段加入领域特定的提示和示例，例如在问题前增加“这是一个手术/工业/极限运动/动物视角的视频，请结合该领域特点回答”，用“提词”方式挖掘模型已有的跨域能力。

监督微调（SFT）：以Qwen2.5-VL-7B为基座，在目标领域的少量标注视频问答数据上全参数微调，使模型参数适应新领域分布；在工业领域上，微调后性能相对基线提升接近20%。

强化学习（RL）：基于GRPO（Generative Reward-based Policy Optimization）搭建RL框架，具体做法是：对每个问题采样多条候选回答（每条样本约8个），再用一个奖励模型判断答案是否正确并打分，以此作为奖励信号对Qwen2.5-VL-7B的策略进行优化。RL在四个领域上平均带来约22个百分点的CloseQA准确率提升，是三种方法中效果最明显的。

这些研究初步揭示了当前大模型的能力边界，为未来构建更具泛化能力的多模态系统提供了宝贵见解。

看来，要培养一个不仅会做家务、还能在专业场景“扛事”的AI助手，还需要更多沉淀。毕竟，真正的世界，可远不止厨房那么大。

论文链接：https://arxiv.org/abs/2508.10729

项目主页：https://github.com/MyUniverse0726/EgoCross

挑战赛主页：https://egocross-benchmark.github.io/