当前位置:首页 > 科技资讯 > 正文

EgoCross:跨越领域的AI挑战与突破

我们早已习惯了AI在屏幕上滔滔不绝、生成美图的景象,它似乎无所不知。但一旦将其“扔进”真实的手术室,让它从主刀医生的第一视角判断下一步应使用哪种钳子,这位“学霸”可能会立刻感到迷茫。

针对此类复杂情境,EgoCross项目团队专注于跨域第一人称视频问答评测。他们揭示出当前多模态大语言模型(MLLM)在外科、工业、极限运动与动物视角等场景下的泛化瓶颈。

EgoCross:跨越领域的AI挑战与突破 EgoCross 跨域评测 MLLM 多模态 第1张

目前大多数第一人称视频基准都集中在日常生活活动上,却忽略了真实世界应用中巨大的领域差异。

华东师范大学与INSAIT的研究团队首次提出跨域第一视角视频问答基准EgoCross,覆盖四个高价值专业领域,包含近千条高质量问答对,同时提供闭卷(CloseQA)和开卷(OpenQA)双评测格式,填补了该领域的评估空白。

团队还通过八款主流MLLM的全面测试,揭示了现有模型的跨域短板,并验证了微调(SFT)、强化学习(RL)等方法的改进潜力。

这项研究已入选AAAI 2026,所有数据集、代码已全部开源。

突破日常“舒适圈”

Egocentric Video Question Answering(EgocentricQA)的目标是,在“第一视角视频+问题”的输入下,让模型给出正确的自然语言回答。

尽管已有大量工作在这一方向取得进展,但它们几乎只在日常生活场景中评测模型:做饭、切菜、整理房间……

实际上,更具挑战的场景往往来自:

手术领域:需识别“切割工具”,还需区分“抓钳”、“手术刀”和“双极镊”等精细器械。手术流程长、风险高,识别及预测错误带来的风险极大;工业领域:涉及复杂的电路板维修流程和精细物体识别;极限运动:第一视角相机剧烈抖动、视角切换频繁,画面模糊严重;动物视角:相机随动物做不规则运动,视角高度和关注区域与人类完全不同。

这些场景在视觉风格语义内容上都与“日常家务”大相径庭,构成天然的领域差异(domain shift)

这引出了本研究的核心问题:现有在日常场景上表现优秀的MLLM,能否在这些陌生领域中依然可靠?如果不能,问题出在哪?又能如何改进?

一个基准,三大贡献

1. 首个跨域EgocentricQA基准

精心选择四个具有实际应用价值的专业领域:手术、工业、极限运动、动物视角,构建了包含957个问答对的数据集,覆盖15种细粒度任务类型,每个问答对同时提供开放式(OpenQA)和选择式(CloseQA)两种格式。

2. 全面模型评估与分析

评测了八个最先进的多模态大语言模型,包括GPT-4.1、Gemini 2.5 Pro等闭源模型,以及Qwen2.5-VL、VideoLLaMA3等开源模型。实验揭示:即使是表现最好的模型,在跨域场景中CloseQA准确率也低于55%(随机猜测为25%),OpenQA低于35%。从任务类型、领域差异、模型架构等多个维度进行了深入分析。

3. 前瞻性改进研究

探索了提示学习(Prompt Learning)、监督微调(SFT)和强化学习(RL)等技术。发现RL方法能带来最显著的性能提升(平均提高22%),为未来构建更具泛化能力的模型提供了方向。

详解EgoCross:如何构建四大领域的“专业考题”?

EgoCross:跨越领域的AI挑战与突破 EgoCross 跨域评测 MLLM 多模态 第2张

EgoCross从五个高质量开源数据集中精选视频,涵盖四个专业领域。每个领域都设计了四类核心任务:识别(Identification)、定位(Localization)、预测(Prediction)和计数(Counting),共15种子任务,全面评估模型能力。