当前位置:首页 > 科技资讯 > 正文

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆

原本以为临近新年,AI技术圈能稍稍平静些,毕竟去年一整年各大厂商扎堆发布新品,让行业几乎没有停歇。

特别是图像生成领域,闭源方面,Banana Pro凭借其惊人的光影质感,几乎成了设计师电脑里的标配;开源方面,Z-image等模型也风头正劲,只要显卡给力,本地渲染效果堪比专业水准。

当时我还在编辑部和同事讨论,认为这两个大模型的风潮至少能持续半年。

然而,打脸来得比翻书还快。

就在昨天,阿里的通义千问团队推出了新一代图像生成基础模型——Qwen-Image 2.0。

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第1张(图源:阿里)

这款模型的名字听起来朴实无华,但核心卖点却让圈内人炸锅:不仅能画图,还能听懂人话,甚至能写中文字。

官方介绍显示,该模型支持原生2K分辨率(2048x2048像素),能处理长达1000个token的复杂指令,并采用更轻量的模型架构,模型尺寸远小于Qwen-Image 1.0的20B,带来更快的推理速度。

别担心参数听不懂,我也准备了谷歌Nano Banana Pro进行横向体验比较。话不多说,直接开整!

中文输出不错,审美有待提升

在跑图之前,我们先聊聊Qwen-Image 2.0的核心逻辑。

以往我们玩AI画图,就像抽卡。由于输入Token长度的限制,很难细致定义自己想要的图片,只能简化需求为关键词集合,然后让AI生成几张图。效果好不好全看运气。

从我的经验来看,提示词太长,模型往往会顾此失彼,要么丢了背景,要么搞错了物体数量。

但Qwen-Image 2.0不同,它主打长指令遵循和强大渲染能力。

为了验证这一点,我准备了三个维度的地狱级测试:超长逻辑指令、图文混合排版和中文语义精准还原。

要知道,Qwen-Image 2.0输入的提示词长度可达1K token,可以非常详细和具体地描述图片需求,还可以选择是否需要优化prompt。

这点对新手AI玩家来说吸引力十足。

在超长逻辑指令测试中,我输入了一个长达700字且包含复杂指令的提示词:

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第2张(图源:雷科技)

说实话,敲完这段字我都觉得有些过分。

这种四格结构、明确逻辑、人物关系与统一画风的制图要求,对市面上大部分图像生成模型来说几乎不可能做到。

等待十几秒后,两张图出来了。Banana Pro生成的图意境到位,黑白对比强烈。但仔细一看,它居然把豹子头林冲画成了一个长着豹子头的怪物!

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第3张(图源:雷科技自制,Nano Banana Pro)

再看Qwen-Image 2.0这边,画风更偏写实。林冲是个满脸沧桑的硬汉,没有长出动物脑袋。它清楚“豹子头”指的是人的特征而非物种。从跪地、破窗到持枪杀敌,分镜叙事非常清晰。

这就是国产模型在中文语境下的优势——它懂典故,而对手只能望文生义。

稳定性强,修图更是一绝

如果说前面的文生图只是常规操作,那么接下来的图像编辑才真正让人惊喜。

通过上传图片和提示词指令让AI进行二创、修改等编辑操作。这里试试“三视图”玩法:

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第4张(图源:雷科技)

原图是TikTok上的日本小网红:

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第5张(图源:哔哩哔哩)

在此基础上,Qwen-Image 2.0生成的三视图非常正常。而Nano Banana Pro的成品则很抽象。

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第6张(图源:雷科技自制,Nano Banana Pro)

我们接着尝试给原图换一套Coser服装和拍摄场地。Qwen-Image 2的成品没有违和感,衣服和女孩的融合得很好。

总结:堪称中文版Banana

从数据上看,Qwen-Image 2.0在全球公认的AI竞技场Ai Arena里排名已经冲到了第一梯队。在某些特定指标上甚至超过了老牌闭源模型。

阿里Qwen-Image 2.0震撼登场:中文图像生成新标杆 阿里通义千问 Qwen-Image 2.0 中文图像生成 AI Photoshop 第7张(图源:Ai Arena)

Qwen-Image 2.0不仅真·懂中文、文字生成能力强、可控性高而且同时拥有文生图和图像编辑能力。这使得它用起来更像AI Photoshop而不是单纯的AI画图工具。