当前位置:首页 > 科技资讯 > 正文

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式

在文本生成图像(Text-to-Image)与视频生成技术的前沿阵地,以FLUX.1、Emu3为代表的扩散模型和自回归模型已能够渲染出高度写实的视觉画面。

然而,一旦用户提出涉及复杂空间排布、多目标交互乃至精确数量控制的指令时,这些先进模型往往瞬间“失灵”——不是把猫绘于窗框之外,就是将三个苹果误作四个。

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式 文生图 扩散模型 Thinking-while-Generating 空间关系 第1张

为了攻克这一顽疾,学术界此前曾开辟两条主流路径:

其一被称为“谋定而后动”(Think-before-Generation),即在绘制首个像素之前,必须将全局布局详尽拆解为可执行的蓝图。这种思路固然严谨,却如同要求画家在落笔前预想每一道笔触——一旦开画便再无转圜余地,欠缺动态调整的灵活性。

另一条路径则是“亡羊补牢”(Think-after-Generation):待整幅画作生成完毕,再通过数轮人机对话逐一排查、反复修正。这种方法虽能逐步逼近理想效果,却必然带来巨额的推理开销与难以忍受的等待周期。

那么,是否存在这样一种可能——让模型模仿人类画师的创作习惯,在绘制中途从容停笔,既审视已完成的局部是否精准,又为接下来的步骤制定策略?

近日,由香港中文大学、美团等机构组成的联合研究团队,提出了一项极具革新意义的范式——Thinking-while-Generating(TwiG)这是首个在单一生成轨迹中,以局部区域为粒度,实现文本推理与视觉生成深度交织(Interleave)的统一框架。

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式 文生图 扩散模型 Thinking-while-Generating 空间关系 第2张

何为Thinking-while-Generating?

若将以往的视觉生成比作“一次冲刺跑完全程”,TwiG则鲜明地呈现出一种“间歇性沉思”的节奏。

研究团队从大语言模型(LLM)广为人知的思维链(Chain-of-Thought)中获得灵感,但并未简单复制,而是反用其道:不再是借助图片来辅助文本推理,而是借由显式的语言推理来指导绘画流程。

在TwiG架构之下,视觉生成不再是一个密不透风、不可透视的黑箱,而被重组为“生成‑思考‑再生成”的螺旋式循环。模型会在绘制过程中多次主动“暂停”,插入一段文本推理(Thought),用于总结当前已呈现的视觉状态,并精准指引下一阶段应补充的内容。

三足鼎立:TwiG的核心设计维度

1. When to Think(思考时机):模型首先依据用户的提示词(Prompt)自动编排一份“思维日程”。实验表明,将图像生成历程拆分为3个阶段能收获最优效果,这一分段恰好与“上部背景、核心主体、下部背景”的自然语义层次相吻合。

2. What to Say(思考内容):在每个预设的停靠点上,模型会产出一段浓缩的“思维链”。这段文本不仅连贯上文语境,更如同一张微型导航图,专为即将绘制的局部区域提供细腻指令。这种细粒度的引导,远比传统“一句提示词统领全局”的做法更为精准可控。

3. How to Refine(修正机制):完成某一局部后,模型会立即启动自我反思(Self-Reflection)。一旦检测到对象错位、色彩偏差等问题,它能即时激活“重绘”子程序,仅对该局部执行修正,无需整体推倒重来。

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式 文生图 扩散模型 Thinking-while-Generating 空间关系 第3张

实证递进:从零样本到监督微调再到强化学习

为验证这一范式的实际潜力,团队在统一多模态模型(如Janus-Pro)上实施了层层递进的实验。

零样本(Zero-Shot)已展露锋芒

仅凭精心构造的提示词,无需更新任何参数,模型即自发展现出强大的“边画边想”能力。在T2I-CompBench基准测评中,零样本版本的TwiG(TwiG-ZS)在属性绑定、空间关系等多个子项上显著超越了基线模型。这一结果有力证明,在恰当的interleave约束与提示引导下,当前的多模态模型已经具备在生成过程中调用推理功能的潜质。

监督微调(SFT)加持稳定性

团队进一步构建了包含5万条高质量样本的数据集TwiG-50K,并对模型执行监督微调(SFT)。结果显示,SFT显著抑制了模型“无端遐想”式的幻觉,促使生成的思维链更凝练、更可控。

强化学习(RL)突破效能天花板

团队引入专为TwiG优化的GRPO策略(Group Relative Policy Optimization),使模型在“思考时机、思考内容、修正手段”三大策略上开展自我博弈与迭代进化。实验数据清晰显示,经RL训练的TwiG-RL版本,在T2I-CompBench++的关键组合与空间维度指标上,已具备与Emu3、FLUX.1等尖端模型正面竞争的实力,甚至在部分细分维度上实现了反超。

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式 文生图 扩散模型 Thinking-while-Generating 空间关系 第4张

Thinking-while-Generating:面向复杂空间关系的文生图推理新范式 文生图 扩散模型 Thinking-while-Generating 空间关系 第5张

TwiG的提出不仅是一项单纯的技术优化,更折射出视觉生成领域观念性的跃迁。它尝试击穿生成模型长期存在的“黑箱”壁垒,通过植入可解析的文本推理环节,使整个创作过程透明化、可干预且富有逻辑性。

研究团队的结论可凝练为如下要点:

1. 生成需以逻辑为基:仅依赖像素概率预测无法妥善应对复杂的逻辑约束,显式引入文本推理是通往更智能视觉生成的关键路径。

2. 修正优于重绘:相较于成图后的大幅返工,在生成中途进行局部即时修复无疑是更高效、更经济的策略。

3. RL是关键杠杆:强化学习不仅能提升最终图像的客观质量,更能从根本上教导模型“如何思考”,是解锁多模态模型深层推理潜能的核心钥匙。

当前TwiG的具体实现与实验验证主要基于自回归ULM(如Janus-Pro),但其设计原则对扩散模型同样保持开放。展望未来,这种“边生成边思考”的新范式有望向视频生成、3D建模等更高维度的视觉任务迁移,为构筑真正的通用视觉智能献上一块关键拼图。

论文题目:Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

论文链接:https://arxiv.org/abs/2511.16671

项目主页:https://think-while-gen.github.io