当前位置:首页 > 科技资讯 > 正文

阿里Qwen-Image:重塑图像生成与编辑新纪元

就在8月19日,阿里巴巴推出了Qwen-Image,这是一款创新的图像生成基础模型。该模型通过系统性数据工程、渐进学习策略、多任务训练范式以及架构优化,致力于解决复杂文本渲染和精准图像编辑的难题。

在人工智能领域,图像生成技术作为关键分支,近年来取得了显著进展。无论是从文本直接生成图像(T2I),还是对现有图像进行编辑(TI2I),核心在于机器能否精准理解并再现人类意图。尽管扩散模型等架构的引入提升了生成图像的分辨率与细节表现力,但该领域仍面临两个长期挑战。

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第1张

在文本到图像的生成任务中,模型对复杂、多维度文本指令的理解与对齐能力尚显不足。特别是在处理多行文本渲染、非字母文字(如汉字)渲染、特定位置文字嵌入以及文字与视觉元素融合等精细任务时,现有模型难以达到理想效果。

而在图像编辑任务中,确保编辑后图像在视觉和语义上的一致性成为双重挑战。这要求视觉一致性,即仅修改目标区域而不影响其他视觉细节;同时要求语义连贯性,即在结构性调整(如改变人物姿态)时保留主体身份特征与场景逻辑。

01

Qwen团队发布了一份技术报告《Qwen-Image Technical Report》,详细介绍了Qwen-Image的功能。

为实现精准文本渲染,Qwen-Image构建了一个全面的数据处理体系。该体系从大规模收集数十亿级别的图文数据开始,强调质量优于数量。数据经过七个阶段的精细化过滤管道,从低分辨率的基础筛选到高分辨率的美学提纯,系统性地提升了数据质量与图文对齐度。

考虑到真实图像中汉字等内容的长尾分布特性,模型还通过“纯粹渲染”、“组合渲染”和“复杂渲染”三种策略合成高质量的文本图像数据,弥补了自然数据的不足。在此基础上,模型采用由简到繁的“课程学习”策略进行训练,显著增强了其渲染复杂中英文文本的能力。

为实现精准图像编辑,Qwen-Image提出了一种增强的多任务学习框架。其核心是将输入图像编码为两种互补特征:一是通过Qwen2.5-VL模型提取的高层“语义特征”,用于理解图像内容和编辑指令;二是通过变分自编码器(VAE)提取的低层“重建特征”,用于保留图像的视觉细节和纹理。

这两种特征共同作为引导信号,输入到多模态扩散Transformer(MMDiT)中。这种“双重编码”设计使得模型在执行编辑指令时既能理解“改什么”,又能知道“保留什么”,从而在语义连贯性与视觉保真度之间取得良好平衡。

模型架构上,Qwen-Image由Qwen2.5-VL(条件编码器)、VAE(图像压缩与解码)和MMDiT(核心生成网络)三部分组成。其中,VAE采用独特的“单编码器、双解码器”架构,在高质量图像重建的同时为未来扩展到视频生成任务奠定基础。MMDiT内部引入MSROPE新型位置编码方法,通过概念上将文本信息置于图像网格对角线,改善文本与图像特征对齐。

训练过程同样渐进式,从低分辨率到高分辨率,从无文本图像到有文本图像,结合监督微调(SFT)与直接偏好优化(DPO)等强化学习方法,持续优化生成结果的质量与指令准确性。大量基准测试与人类评估结果显示,Qwen-Image在通用图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平。

让我们直接看成品。我故意挑战Qwen-Image的极限,要求它生成自然界不存在的事物。结果显示,Qwen的冰山渲染效果优于GPT-5,但火焰与冰山融合欠佳。GPT-5则用熔岩填补两者间隙,使画面更自然。

提示词:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第2张

GPT-5:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第3张

在图片重构方面,GPT-5除猫整体外均发生改変。可能是希望猫漂浮在空中,GPT-5将其送上了大气层,而Qwen-Image则让猫漂浮在半空中。

提示词:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

原图片:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第4张

Qwen-Image:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第5张

GPT-5:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第6张

有趣的是,由于原图片中出现星条旗,GPT-5和Gemini无法修改。但Qwen-Image完成了该命令,尽管生成的图片中马斯克显得更老。

提示词:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

原图:

阿里Qwen-Image:重塑图像生成与编辑新纪元 Qwen-Image 图像生成 文本到图像 图像编辑 第7张