字节的模型才发布不久,阿里便紧随其后,推出了新的图像生成模型!
智东西在2月10日获悉,阿里巴巴发布了新一代图像生成基础模型Qwen-Image 2.0,该模型支持多达一千个token的指令,达到2k分辨率,并采用了更轻量化的架构,其尺寸远小于Qwen-Image 1.0的20B,实现了更快的推理速度。
智东西对阿里Qwen-Image 2.0、字节Seedream 5.0 Preview及谷歌Nano Banana Pro进行了对比测试,发现Qwen-Image 2.0在长指令遵循和文本渲染上表现优异,但在图像的真实感上仍稍逊于Nano Banana Pro。
Qwen-Image 2.0的升级重点在于文字渲染。在官方提供的AB测试中,文字的字体、排版等均由一个包含888个token(涵盖近1000个中英文字词)的超长提示词定义,而Qwen-Image 2.0能够出色地还原这些文字。
Qwen-Image 2.0甚至能用毛笔字渲染《兰亭集序》全文,并确保文字和画面的协调,不遮挡山水和人物。尽管某些文字存在渲染失败的情况,但比例已经很低。
此外,Qwen-Image 2.0还支持一次性生成数十个子图并保持主体一致性。如下图中所示的漫画,共有24个画面,人物和画风都较为连贯。
针对AI生成图像常见的“油腻感”,Qwen-Image 2.0也进行了优化。与前代模型相比,其色彩更自然,观感更接近实拍,AI痕迹更少。
阿里在AI盲测平台AI Arena上对Qwen-Image 2.0进行了测试,结果显示其在文生图和图生图基准中分别排名第三和第二,但仍落后于谷歌的Nano Banana Pro。目前,该模型尚未与刚发布的Seedream 5.0 Preview进行对比。
在访谈中,吴晨飞提到Qwen-Image项目于去年5月立项,8月发布首款模型,主要围绕生图和编辑两个方向迭代。而Qwen-Image 2.在千问大模型高级解决方案架构师熊瀚天的分享中,团队计划进一步强化模型的分层编辑能力,目标是让生成模型成为生产力工具。 我们对Qwen-Image 2.在超长提示词任务中,我们对官方提示词进行了微调,以检验模型的生成质量。
对比分析:阿里、字节、谷歌三款模型的文字渲染能力
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435833.html