当前位置：首页 > 科技资讯 > 正文

TwiG：边生成边思考，重塑视觉生成新范式

主机测评网
科技资讯
2026-05-31
339

在文本到图像（Text-to-Image）以及视频生成的领域中，诸如FLUX.1和Emu3之类的扩散模型与自回归模型已能创造出极其逼真的图像。

然而，当这些模型面对复杂的空间关系、多物体交互或精确数量控制时，它们常常会出现错误：有时会把猫画到窗外，有时会把三个苹果画成四个。

TwiG：边生成边思考，重塑视觉生成新范式 TwiG 视觉生成文本推理强化学习第1张

为了克服这一挑战，学术界之前探索了两种主要途径：

一是“谋定而后动”（Think-before-Generation），即在开始绘制前制定详细的布局计划。但这种方法就像要求画家在动笔前必须详细规划每一笔，一旦开始就无法更改，缺乏灵活性。

另一条途径是“亡羊补牢”（Think-after-Generation），即先完成图像绘制，再通过多轮对话进行纠错和修改。尽管这种方法有效，但通常伴随着巨大的推理开销和漫长的等待时间。

那么，有没有一种方法能让模型像人类画家一样，在创作过程中停下来审视并规划下一步呢？

近期，来自香港中文大学、美团等机构的研究团队提出了一种全新的范式——Thinking-while-Generating（TwiG）。这是首个在单一生成轨迹中，以局部区域为粒度，将文本推理与视觉生成深度交织的框架。

TwiG：边生成边思考，重塑视觉生成新范式 TwiG 视觉生成文本推理强化学习第2张

什么是Thinking-while-Generating？

如果说之前的视觉生成是“一气呵成”，TwiG则更像是一种“间歇性思考”。

研究团队受到大语言模型（LLM）中思维链（Chain-of-Thought）的启发，反其道而行之：不再用图片辅助推理，而是用推理来引导作画。

在TwiG框架下，视觉生成不再是连续的黑盒过程，而是被拆解为“生成-思考-再生成”的循环。模型在绘制过程中多次“暂停”，插入一段文本推理（Thought），用于总结当前的视觉状态，并指导接下来的生成。

为了实现这一目标，研究团队将TwiG框架拆解为三个核心维度：

1. When to Think（何时思考）：模型首先根据用户的Prompt（提示词），规划出一个“思维时间表”。研究发现，将画面生成过程拆解为三个阶段效果最佳，这恰好符合图像通常包含“上部背景、主体内容、下部背景”的语义结构。

2. What to Say（思考什么）：在每个暂停点，模型会生成一段“思维链”。这段文本不仅承接了上文的逻辑，更像是一个微型指南，专门指导接下来的局部区域该如何绘制。这种细粒度的引导比单一Prompt更加精准。

3. How to Refine（如何修正）：在绘制一个局部后，模型会立即进行自我批判（Self-Reflection）。如果发现绘制有误或颜色不对，它会立即触发“重画”机制，只修正当前局部，无需整体重做。

TwiG：边生成边思考，重塑视觉生成新范式 TwiG 视觉生成文本推理强化学习第3张

实证研究：从Zero-Shot到SFT到RL

为了验证这一范式的潜力，研究团队在统一多模态模型（如Janus-Pro）上进行了层层递进的实验。

Zero-Shot潜力惊人

仅通过精心设计的Prompt，而无需任何参数更新，模型已展现出强大的“边画边想”能力。

在T2I-CompBench基准测试中，Zero-Shot版的TwiG（TwiG-ZS）在属性绑定、空间关系等多个维度上显著超越了基准模型。

结果表明，在合适的interleave约束与提示下，现有多模态模型已具备一定的在生成过程中进行推理的潜力。

SFT提升稳定性

团队进一步构建了包含50K数据的高质量数据集TwiG-50K，对模型进行监督微调（SFT）。结果显示，SFT有效减少了模型产生的幻觉，使生成的思维链更加简练、可控。

RL突破上限

团队采用了针对TwiG优化的GRPO策略（Group Relative Policy Optimization），让模型在“何时思考、思考什么、如何修正”的策略上进行自我博弈和进化。

实验数据显示，经过RL训练的TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上展现出与Emu3、FLUX.1等模型具有竞争力、甚至在部分维度上更优的表现。

TwiG：边生成边思考，重塑视觉生成新范式 TwiG 视觉生成文本推理强化学习第4张

TwiG的提出不仅是对技术的一种优化，更是对观念的一种转变。它试图打破视觉生成模型的“黑盒”属性，通过引入可读的文本推理，使生成过程变得透明、可控且具逻辑性。

研究团队的结论可总结为以下几点：

1. 生成需要逻辑：单纯的像素概率预测难以处理复杂的逻辑约束，引入显式的文本推理是必经之路。
2. 修正优于重绘：相比于完成后再修改的“大动干戈”，在生成过程中进行局部即时修正是更高效的策略。
3. RL是关键：强化学习不仅能优化最终图像质量，更能教会模型如何思考，是挖掘多模态模型推理潜力的关键钥匙。

性价比vps 云服务器性价比服务器

本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260546766.html

TwiG：边生成边思考，重塑视觉生成新范式

什么是Thinking-while-Generating？

为了实现这一目标，研究团队将TwiG框架拆解为三个核心维度：

实证研究：从Zero-Shot到SFT到RL

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破

AI架构瓶颈：探索下一代智能的突破

TwiG：边生成边思考，重塑视觉生成新范式

什么是Thinking-while-Generating？

为了实现这一目标，研究团队将TwiG框架拆解为三个核心维度：

实证研究：从Zero-Shot到SFT到RL

浙江大学ReLER团队发布ContextGen框架，实现多实例图像生成新突破

AI架构瓶颈：探索下一代智能的突破

相关文章