Game-RL：利用游戏数据提升视觉语言模型推理能力

复旦大学NLP实验室研发了Game-RL，利用游戏的丰富视觉元素和明确规则，生成多模态可验证的推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出了Code2Logic方法，系统化合成游戏任务数据，构建了GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

现有的工作利用强化学习（RL）提升了视觉语言模型（VLM）的推理能力，但其任务场景往往局限于几何或图表推理。这种局限性制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢？

电子游戏拥有丰富多样的视觉元素和明确可验证的规则，因此是理想的多模态推理数据源。

复旦大学NLP实验室的研究团队因此提出了Game-RL——通过构造多模态可验证的游戏任务来强化训练VLM。

Game-RL：利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型多模态推理 Code2Logic 第1张

为了获得训练数据（如图1所示），研究人员还提出了新颖的Code2Logic方法，通过游戏代码系统化合成数据。

Game-RL：利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型多模态推理 Code2Logic 第2张

图1展示了GameQA数据集中各游戏类别的代表性游戏，包括3D重建、七巧板（变体）、数独和推箱子。每个游戏都提供了两个视觉问答示例，包括当前游戏状态图片、相应的问题以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证的游戏任务数据。

如图2所示，利用强大的语言模型（LLM）生成游戏代码、设计任务及其模板、构建数据引擎代码。最后只需执行代码便能自动生成数据。

Game-RL：利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型多模态推理 Code2Logic 第3张

图2展示了Code2Logic方法的三个核心步骤：第一步是游戏代码构建；第二步是游戏任务及其问答模板设计；第三步是数据引擎构建，基于前两步构建自动化程序，然后只需执行代码就能自动批量生成数据。

GameQA丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集，这些多模态可验证的游戏数据可以用于VLM推理能力的训练和评测。

GameQA包含：四大认知能力类别、30个游戏（如图3所示）、158个推理任务、以及14万个问答对。

难度分级：任务按难度分为三级；样本按视觉输入复杂度也分为三级。

Game-RL：利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型多模态推理 Code2Logic 第4张

图3展示了GameQA的30个游戏，分为四大认知能力类别，涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。其中，有20个域内游戏用于训练和测试，而另外10个域外游戏不参与训练，用于测试模型在未见游戏场景下的泛化能力。

在GameQA上使用GRPO训练后，四个开源VLM在七个完全域外的通用视觉语言推理基准上均取得提升（Qwen 2.5-VL-7B平均提升2.33%），展现出跨领域泛化能力，如表1所示。

Game-RL：利用游戏数据提升视觉语言模型推理能力 Game-RL 视觉语言模型多模态推理 Code2Logic 第5张

表1展示了通用视觉语言推理基准上的评测结果。

研究团队将GameQA与几何和图表推理数据集进行对比训练，发现GameQA可以与之匹敌。

如表2所示，尽管GameQA的训练数据量更少且领域不匹配，但其训练的模型在通用基准上的总体表现仍然很有竞争力。特别是在MathVista和MathVerse这两个与几何和函数推理相关的基准上，GameQA的表现甚至可以与更“对口”的几何推理数据训练相媲美。

这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。

云服务器免费服务器

本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543116.html