当前位置：首页 > 科技资讯 > 正文

Thinking-while-Generating：面向复杂空间关系的文生图推理新范式

主机测评网
科技资讯
2026-02-12
719

在文本生成图像（Text-to-Image）与视频生成技术的前沿阵地，以FLUX.1、Emu3为代表的扩散模型和自回归模型已能够渲染出高度写实的视觉画面。

然而，一旦用户提出涉及复杂空间排布、多目标交互乃至精确数量控制的指令时，这些先进模型往往瞬间“失灵”——不是把猫绘于窗框之外，就是将三个苹果误作四个。

Thinking-while-Generating：面向复杂空间关系的文生图推理新范式文生图扩散模型 Thinking-while-Generating 空间关系第1张

为了攻克这一顽疾，学术界此前曾开辟两条主流路径：

其一被称为“谋定而后动”（Think-before-Generation），即在绘制首个像素之前，必须将全局布局详尽拆解为可执行的蓝图。这种思路固然严谨，却如同要求画家在落笔前预想每一道笔触——一旦开画便再无转圜余地，欠缺动态调整的灵活性。

另一条路径则是“亡羊补牢”（Think-after-Generation）：待整幅画作生成完毕，再通过数轮人机对话逐一排查、反复修正。这种方法虽能逐步逼近理想效果，却必然带来巨额的推理开销与难以忍受的等待周期。

那么，是否存在这样一种可能——让模型模仿人类画师的创作习惯，在绘制中途从容停笔，既审视已完成的局部是否精准，又为接下来的步骤制定策略？

近日，由香港中文大学、美团等机构组成的联合研究团队，提出了一项极具革新意义的范式——Thinking-while-Generating（TwiG）。这是首个在单一生成轨迹中，以局部区域为粒度，实现文本推理与视觉生成深度交织（Interleave）的统一框架。

Thinking-while-Generating：面向复杂空间关系的文生图推理新范式文生图扩散模型 Thinking-while-Generating 空间关系第2张

何为Thinking-while-Generating？

若将以往的视觉生成比作“一次冲刺跑完全程”，TwiG则鲜明地呈现出一种“间歇性沉思”的节奏。

研究团队从大语言模型（LLM）广为人知的思维链（Chain-of-Thought）中获得灵感，但并未简单复制，而是反用其道：不再是借助图片来辅助文本推理，而是借由显式的语言推理来指导绘画流程。

在TwiG架构之下，视觉生成不再是一个密不透风、不可透视的黑箱，而被重组为“生成‑思考‑再生成”的螺旋式循环。模型会在绘制过程中多次主动“暂停”，插入一段文本推理（Thought），用于总结当前已呈现的视觉状态，并精准指引下一阶段应补充的内容。

三足鼎立：TwiG的核心设计维度

1. When to Think（思考时机）：模型首先依据用户的提示词（Prompt）自动编排一份“思维日程”。实验表明，将图像生成历程拆分为3个阶段能收获最优效果，这一分段恰好与“上部背景、核心主体、下部背景”的自然语义层次相吻合。

2. What to Say（思考内容）：在每个预设的停靠点上，模型会产出一段浓缩的“思维链”。这段文本不仅连贯上文语境，更如同一张微型导航图，专为即将绘制的局部区域提供细腻指令。这种细粒度的引导，远比传统“一句提示词统领全局”的做法更为精准可控。

3. How to Refine（修正机制）：完成某一局部后，模型会立即启动自我反思（Self-Reflection）。一旦检测到对象错位、色彩偏差等问题，它能即时激活“重绘”子程序，仅对该局部执行修正，无需整体推倒重来。

Thinking-while-Generating：面向复杂空间关系的文生图推理新范式文生图扩散模型 Thinking-while-Generating 空间关系第3张

实证递进：从零样本到监督微调再到强化学习

为验证这一范式的实际潜力，团队在统一多模态模型（如Janus-Pro）上实施了层层递进的实验。

零样本（Zero-Shot）已展露锋芒

仅凭精心构造的提示词，无需更新任何参数，模型即自发展现出强大的“边画边想”能力。在T2I-CompBench基准测评中，零样本版本的TwiG（TwiG-ZS）在属性绑定、空间关系等多个子项上显著超越了基线模型。这一结果有力证明，在恰当的interleave约束与提示引导下，当前的多模态模型已经具备在生成过程中调用推理功能的潜质。

监督微调（SFT）加持稳定性

团队进一步构建了包含5万条高质量样本的数据集TwiG-50K，并对模型执行监督微调（SFT）。结果显示，SFT显著抑制了模型“无端遐想”式的幻觉，促使生成的思维链更凝练、更可控。

强化学习（RL）突破效能天花板

团队引入专为TwiG优化的GRPO策略（Group Relative Policy Optimization），使模型在“思考时机、思考内容、修正手段”三大策略上开展自我博弈与迭代进化。实验数据清晰显示，经RL训练的TwiG-RL版本，在T2I-CompBench++的关键组合与空间维度指标上，已具备与Emu3、FLUX.1等尖端模型正面竞争的实力，甚至在部分细分维度上实现了反超。

Thinking-while-Generating：面向复杂空间关系的文生图推理新范式文生图扩散模型 Thinking-while-Generating 空间关系第4张