复旦大学NLP实验室研发了Game-RL,利用游戏的丰富视觉元素和明确规则,生成多模态可验证的推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出了Code2Logic方法,系统化合成游戏任务数据,构建了GameQA数据集,验证了游戏数据在复杂推理训练中的优势。
现有的工作利用强化学习(RL)提升了视觉语言模型(VLM)的推理能力,但其任务场景往往局限于几何或图表推理。这种局限性制约了VLM的探索和学习。
如何拓展VLM的RL训练领域呢?
电子游戏拥有丰富多样的视觉元素和明确可验证的规则,因此是理想的多模态推理数据源。
复旦大学NLP实验室的研究团队因此提出了Game-RL——通过构造多模态可验证的游戏任务来强化训练VLM。
为了获得训练数据(如图1所示),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。
图1展示了GameQA数据集中各游戏类别的代表性游戏,包括3D重建、七巧板(变体)、数独和推箱子。每个游戏都提供了两个视觉问答示例,包括当前游戏状态图片、相应的问题以及逐步推理过程和答案。
Code2Logic方法创新性地基于游戏代码合成多模态可验证的游戏任务数据。
如图2所示,利用强大的语言模型(LLM)生成游戏代码、设计任务及其模板、构建数据引擎代码。最后只需执行代码便能自动生成数据。
图2展示了Code2Logic方法的三个核心步骤:第一步是游戏代码构建;第二步是游戏任务及其问答模板设计;第三步是数据引擎构建,基于前两步构建自动化程序,然后只需执行代码就能自动批量生成数据。
利用Code2Logic方法构建了GameQA数据集,这些多模态可验证的游戏数据可以用于VLM推理能力的训练和评测。
GameQA包含:四大认知能力类别、30个游戏(如图3所示)、158个推理任务、以及14万个问答对。
难度分级:任务按难度分为三级;样本按视觉输入复杂度也分为三级。
图3展示了GameQA的30个游戏,分为四大认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。其中,有20个域内游戏用于训练和测试,而另外10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。
在GameQA上使用GRPO训练后,四个开源VLM在七个完全域外的通用视觉语言推理基准上均取得提升(Qwen 2.5-VL-7B平均提升2.33%),展现出跨领域泛化能力,如表1所示。
表1展示了通用视觉语言推理基准上的评测结果。
研究团队将GameQA与几何和图表推理数据集进行对比训练,发现GameQA可以与之匹敌。
如表2所示,尽管GameQA的训练数据量更少且领域不匹配,但其训练的模型在通用基准上的总体表现仍然很有竞争力。特别是在MathVista和MathVerse这两个与几何和函数推理相关的基准上,GameQA的表现甚至可以与更“对口”的几何推理数据训练相媲美。
这表明游戏中的认知多样性和推理复杂性具有通用性和迁移能力。
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543116.html