当前位置：首页 > 科技资讯 > 正文

阿里Qwen-Image：重塑图像生成与编辑新纪元

主机测评网
科技资讯
2026-04-23
504

就在8月19日，阿里巴巴推出了Qwen-Image，这是一款创新的图像生成基础模型。该模型通过系统性数据工程、渐进学习策略、多任务训练范式以及架构优化，致力于解决复杂文本渲染和精准图像编辑的难题。

在人工智能领域，图像生成技术作为关键分支，近年来取得了显著进展。无论是从文本直接生成图像（T2I），还是对现有图像进行编辑（TI2I），核心在于机器能否精准理解并再现人类意图。尽管扩散模型等架构的引入提升了生成图像的分辨率与细节表现力，但该领域仍面临两个长期挑战。

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第1张

在文本到图像的生成任务中，模型对复杂、多维度文本指令的理解与对齐能力尚显不足。特别是在处理多行文本渲染、非字母文字（如汉字）渲染、特定位置文字嵌入以及文字与视觉元素融合等精细任务时，现有模型难以达到理想效果。

而在图像编辑任务中，确保编辑后图像在视觉和语义上的一致性成为双重挑战。这要求视觉一致性，即仅修改目标区域而不影响其他视觉细节；同时要求语义连贯性，即在结构性调整（如改变人物姿态）时保留主体身份特征与场景逻辑。

01

Qwen团队发布了一份技术报告《Qwen-Image Technical Report》，详细介绍了Qwen-Image的功能。

为实现精准文本渲染，Qwen-Image构建了一个全面的数据处理体系。该体系从大规模收集数十亿级别的图文数据开始，强调质量优于数量。数据经过七个阶段的精细化过滤管道，从低分辨率的基础筛选到高分辨率的美学提纯，系统性地提升了数据质量与图文对齐度。

考虑到真实图像中汉字等内容的长尾分布特性，模型还通过“纯粹渲染”、“组合渲染”和“复杂渲染”三种策略合成高质量的文本图像数据，弥补了自然数据的不足。在此基础上，模型采用由简到繁的“课程学习”策略进行训练，显著增强了其渲染复杂中英文文本的能力。

为实现精准图像编辑，Qwen-Image提出了一种增强的多任务学习框架。其核心是将输入图像编码为两种互补特征：一是通过Qwen2.5-VL模型提取的高层“语义特征”，用于理解图像内容和编辑指令；二是通过变分自编码器（VAE）提取的低层“重建特征”，用于保留图像的视觉细节和纹理。

这两种特征共同作为引导信号，输入到多模态扩散Transformer（MMDiT）中。这种“双重编码”设计使得模型在执行编辑指令时既能理解“改什么”，又能知道“保留什么”，从而在语义连贯性与视觉保真度之间取得良好平衡。

模型架构上，Qwen-Image由Qwen2.5-VL（条件编码器）、VAE（图像压缩与解码）和MMDiT（核心生成网络）三部分组成。其中，VAE采用独特的“单编码器、双解码器”架构，在高质量图像重建的同时为未来扩展到视频生成任务奠定基础。MMDiT内部引入MSROPE新型位置编码方法，通过概念上将文本信息置于图像网格对角线，改善文本与图像特征对齐。

训练过程同样渐进式，从低分辨率到高分辨率，从无文本图像到有文本图像，结合监督微调（SFT）与直接偏好优化（DPO）等强化学习方法，持续优化生成结果的质量与指令准确性。大量基准测试与人类评估结果显示，Qwen-Image在通用图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平。

让我们直接看成品。我故意挑战Qwen-Image的极限，要求它生成自然界不存在的事物。结果显示，Qwen的冰山渲染效果优于GPT-5，但火焰与冰山融合欠佳。GPT-5则用熔岩填补两者间隙，使画面更自然。

提示词：A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.

Qwen-Image：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第2张

GPT-5：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第3张

在图片重构方面，GPT-5除猫整体外均发生改変。可能是希望猫漂浮在空中，GPT-5将其送上了大气层，而Qwen-Image则让猫漂浮在半空中。

提示词：make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon

原图片：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第4张

Qwen-Image：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第5张

GPT-5：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第6张

有趣的是，由于原图片中出现星条旗，GPT-5和Gemini无法修改。但Qwen-Image完成了该命令，尽管生成的图片中马斯克显得更老。

提示词：Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.

原图：

阿里Qwen-Image：重塑图像生成与编辑新纪元 Qwen-Image 图像生成文本到图像图像编辑第7张