当前位置:首页 > 科技资讯 > 正文

Game-RL:利用游戏数据提升视觉语言模型推理能力

复旦大学NLP实验室研发了Game-RL,利用游戏的丰富视觉元素和明确规则,生成多模态可验证的推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出了Code2Logic方法,系统化合成游戏任务数据,构建了GameQA数据集,验证了游戏数据在复杂推理训练中的优势。

现有的工作利用强化学习(RL)提升了视觉语言模型(VLM)的推理能力,但其任务场景往往局限于几何或图表推理。这种局限性制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢?

电子游戏拥有丰富多样的视觉元素和明确可验证的规则,因此是理想的多模态推理数据源。

复旦大学NLP实验室的研究团队因此提出了Game-RL——通过构造多模态可验证的游戏任务来强化训练VLM。

Game-RL:利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型 多模态推理 Code2Logic 第1张

  • 论文链接:https://arxiv.org/abs/2505.13886
  • 代码仓库:https://github.com/tongjingqi/Game-RL
  • 数据和模型:https://huggingface.co/Code2Logic

为了获得训练数据(如图1所示),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。

Game-RL:利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型 多模态推理 Code2Logic 第2张

图1展示了GameQA数据集中各游戏类别的代表性游戏,包括3D重建、七巧板(变体)、数独和推箱子。每个游戏都提供了两个视觉问答示例,包括当前游戏状态图片、相应的问题以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证的游戏任务数据。

如图2所示,利用强大的语言模型(LLM)生成游戏代码、设计任务及其模板、构建数据引擎代码。最后只需执行代码便能自动生成数据。

Game-RL:利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型 多模态推理 Code2Logic 第3张

图2展示了Code2Logic方法的三个核心步骤:第一步是游戏代码构建;第二步是游戏任务及其问答模板设计;第三步是数据引擎构建,基于前两步构建自动化程序,然后只需执行代码就能自动批量生成数据。

GameQA丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集,这些多模态可验证的游戏数据可以用于VLM推理能力的训练和评测。

GameQA包含:四大认知能力类别、30个游戏(如图3所示)、158个推理任务、以及14万个问答对。

难度分级:任务按难度分为三级;样本按视觉输入复杂度也分为三级。

Game-RL:利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型 多模态推理 Code2Logic 第4张

图3展示了GameQA的30个游戏,分为四大认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。其中,有20个域内游戏用于训练和测试,而另外10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。

核心发现:Game-RL可提升VLM的通用推理

在GameQA上使用GRPO训练后,四个开源VLM在七个完全域外的通用视觉语言推理基准上均取得提升(Qwen 2.5-VL-7B平均提升2.33%),展现出跨领域泛化能力,如表1所示。

Game-RL:利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型 多模态推理 Code2Logic 第5张

表1展示了通用视觉语言推理基准上的评测结果。

训练效果:GameQA匹敌几何数据集

研究团队将GameQA与几何和图表推理数据集进行对比训练,发现GameQA可以与之匹敌。

如表2所示,尽管GameQA的训练数据量更少且领域不匹配,但其训练的模型在通用基准上的总体表现仍然很有竞争力。特别是在MathVista和MathVerse这两个与几何和函数推理相关的基准上,GameQA的表现甚至可以与更“对口”的几何推理数据训练相媲美。

这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。

云服务器免费服务器