当前位置：首页 > 科技资讯 > 正文

EgoCross：跨越领域的AI挑战与突破

主机测评网
科技资讯
2026-05-23
236

我们早已习惯了AI在屏幕上滔滔不绝、生成美图的景象，它似乎无所不知。但一旦将其“扔进”真实的手术室，让它从主刀医生的第一视角判断下一步应使用哪种钳子，这位“学霸”可能会立刻感到迷茫。

针对此类复杂情境，EgoCross项目团队专注于跨域第一人称视频问答评测。他们揭示出当前多模态大语言模型（MLLM）在外科、工业、极限运动与动物视角等场景下的泛化瓶颈。

EgoCross：跨越领域的AI挑战与突破 EgoCross 跨域评测 MLLM 多模态第1张

目前大多数第一人称视频基准都集中在日常生活活动上，却忽略了真实世界应用中巨大的领域差异。

华东师范大学与INSAIT的研究团队首次提出跨域第一视角视频问答基准EgoCross，覆盖四个高价值专业领域，包含近千条高质量问答对，同时提供闭卷（CloseQA）和开卷（OpenQA）双评测格式，填补了该领域的评估空白。

团队还通过八款主流MLLM的全面测试，揭示了现有模型的跨域短板，并验证了微调（SFT）、强化学习（RL）等方法的改进潜力。

这项研究已入选AAAI 2026，所有数据集、代码已全部开源。

突破日常“舒适圈”

Egocentric Video Question Answering（EgocentricQA）的目标是，在“第一视角视频+问题”的输入下，让模型给出正确的自然语言回答。

尽管已有大量工作在这一方向取得进展，但它们几乎只在日常生活场景中评测模型：做饭、切菜、整理房间……

实际上，更具挑战的场景往往来自：

手术领域：需识别“切割工具”，还需区分“抓钳”、“手术刀”和“双极镊”等精细器械。手术流程长、风险高，识别及预测错误带来的风险极大；工业领域：涉及复杂的电路板维修流程和精细物体识别；极限运动：第一视角相机剧烈抖动、视角切换频繁，画面模糊严重；动物视角：相机随动物做不规则运动，视角高度和关注区域与人类完全不同。

这些场景在视觉风格和语义内容上都与“日常家务”大相径庭，构成天然的领域差异（domain shift）。

这引出了本研究的核心问题：现有在日常场景上表现优秀的MLLM，能否在这些陌生领域中依然可靠？如果不能，问题出在哪？又能如何改进？

一个基准，三大贡献

1. 首个跨域EgocentricQA基准

精心选择四个具有实际应用价值的专业领域：手术、工业、极限运动、动物视角，构建了包含957个问答对的数据集，覆盖15种细粒度任务类型，每个问答对同时提供开放式（OpenQA）和选择式（CloseQA）两种格式。

2. 全面模型评估与分析

评测了八个最先进的多模态大语言模型，包括GPT-4.1、Gemini 2.5 Pro等闭源模型，以及Qwen2.5-VL、VideoLLaMA3等开源模型。实验揭示：即使是表现最好的模型，在跨域场景中CloseQA准确率也低于55%（随机猜测为25%），OpenQA低于35%。从任务类型、领域差异、模型架构等多个维度进行了深入分析。

3. 前瞻性改进研究

探索了提示学习（Prompt Learning）、监督微调（SFT）和强化学习（RL）等技术。发现RL方法能带来最显著的性能提升（平均提高22%），为未来构建更具泛化能力的模型提供了方向。