智东西12月8日信息,今天,美团公司正式推出了其开源的图像生成模型LongCat-Image,这是一个参数规模达6B的先进模型,在图像编辑能力上达到了开源领域的SOTA水平,主要专注于文本到图像生成和单图像编辑两大关键应用场景。
▲图源:Hugging Face
根据官方发布的基准测试结果,LongCat-Image主要与Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流开源和闭源图像生成模型进行对标,其核心优化点集中在“编辑可控性”和“中文文字渲染”两项关键能力上。在实际体验中,模型在连续图像修改、风格转换和材质细节表现方面较为出色,但在复杂排版场景下,中文文字渲染仍存在一定的不稳定性。对于复杂UI设计、游戏界面生成等任务,模型的审美表现也显露出一些不足,这可能与模型缺乏联网搜索能力有关。
在访问入口方面,美团提供了多种使用方式。移动端用户可以通过LongCat APP体验文生图和图生图功能;网页端用户则可通过https://longcat.ai/进入图片生成界面进行试用。对于开发者,LongCat-Image的模型权重和代码已全面开源:Hugging Face地址为 https://huggingface.co/meituan-longcat/LongCat-Image,GitHub地址为 https://github.com/meituan-longcat/LongCat-Image。接下来,我们将深入探讨LongCat-Image的模型架构、评测表现和实际测试效果。
在模型设计上,LongCat-Image采用了文生图与图像编辑同源的统一架构,通过渐进式学习策略,在仅6B参数规模下实现了指令遵循精度、生成图像质量和文字渲染能力的协同优化。该训练方法并非从零开始,而是基于文生图中期训练模型进行初始化,并采用多任务联合学习机制,结合文生图和指令编辑任务,以避免编辑能力在后训练阶段被削弱。
▲模型架构
在图像编辑能力方面,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个编辑类基准测试中取得了开源SOTA成绩。通过多源数据预训练、指令改写策略和人工精标SFT数据的引入,模型在应对复杂编辑需求时能更有效地避免风格漂移和结构失真。
▲客观基准测试性能对比
针对中文文字渲染这一长期挑战,LongCat-Image采用了覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT阶段引入真实世界文本图片以增强排版和字体泛化能力,在RL阶段还结合OCR与美学双奖励模型进行约束,最终在ChineseWord评测中获得了90.7分的高分,领先于现有开源模型。在真实感表现上,模型通过对抗训练和严格数据筛选,避免了AIGC常见的“塑料感”纹理问题,并在RL阶段引入AIGC检测器作为奖励信号,以引导模型学习真实世界的物理纹理和光影变化。
综合评测显示,在人类主观评分(MOS)维度上,LongCat-Image在文本对齐、视觉真实度和美学质量等多个子项的表现已接近Seedream4.0等商业模型水平。
▲人类主观评分(MOS)对比
▲并列对比评估胜率(SBS)
在图像编辑任务的并列对比评估(SBS)中,LongCat-Image-Edit在综合质量与一致性两项关键指标上,对NanoBanana和Qwen-Image-Edit等模型均取得了较高胜率。总体来看,LongCat-Image在图像编辑任务上已逼近部分闭源模型水平,在文生图基础能力上也保持在开源头部阵营。
从实际测试来看,LongCat-Image在“连续指令可编辑性”方面表现稳定。我们以近期热门的《疯狂动物城2》相关图片为例,在同一角色基础上进行多轮修改测试。
▲参考图
指令:修改为像素风格作品。模型成功将图像转换为像素风格,保持了角色结构。
指令:重绘为彩色,保留像素质感。模型在彩色化过程中保持了像素质感。
指令:图片角色重绘为模仿乐高积木主题的动物。模型成功将角色转换为乐高积木风格,整体结构稳定。
在漫画图像测试中,通过像素风、彩色像素重绘和乐高积木主题的连续重绘指令,模型能够保持角色结构稳定,同时完成风格与材质的多轮迁移。多次修改过程中,人物轮廓和构图未出现明显错误。
进一步测试电影海报制作场景时,模型对参考图的继承能力较强,角色形象和动态姿势与原始图片保持较高一致度,中英文主标题渲染清晰。但在“小字”区域,细节文字仍存在乱码与英文混杂问题,表明中文文字渲染在复杂排版下仍有不稳定性。
指令:电影《疯狂动物城2》的宣传海报,海报的主画面是电影主角的精彩场面,主标题用艺术手写字体“疯狂动物城2”,下面附上英文名“Zootopia”,另外附上电影海报需要的其他小字,文字清晰可辨认。
在人物档案式中文海报测试中,模型能够正确渲染部分核心字段信息,但中英文错位与局部乱码问题仍然存在。
指令:生成动画电影角色的人物档案式宣传海报,用文字体现以下信息: 尼克•王尔德(Nick Wilde),是一只在迪士尼动画电影《疯狂动物城》中出场的狐狸。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 职业:从骗子到警察。 搭档:兔子警官朱迪。 经典台词:“伤了你的小心脏?”
在产品级渲染测试中,朱迪警官玩偶在影棚光、台灯暖光、自然光客厅与床品光照等多个现实场景下的质感表现稳定。短绒毛细节、眼睛高光反射、沙发布料与玩偶绒毛之间的材质对比都能被准确呈现,整体接近商业产品渲染效果。
相比之下,在游戏界面生成场景中,LongCat-Image的短板较为明显。无论是卡牌游戏、射击游戏,还是MOBA类第一视角界面,整体风格偏向较旧的UI设计审美,与当下主流游戏产品存在代差。
指令:生成一个卡牌游戏界面。
指令:生成一个射击游戏界面。
指令:生成一个英雄联盟的游戏界面。
指令:生成一个王者荣耀第一视角的游戏界面。
从测试结果看,LongCat-Image在改图与产品渲染类任务中具有较高可用性,而在游戏界面与复杂排版场景中表现一般。
从LongCat-Image的整体定位来看,美团并未试图通过更大参数规模冲击旗舰级生图模型,而是明确选择在可控性、连续编辑和中文渲染等方向深入挖掘。图像模型的竞争焦点正快速向能否真正融入设计、产品、品牌等具体生产流程的实用能力集中。随着开源生态的推进,AI生图技术有望在更多实际应用场景中发挥价值,推动行业创新。
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223245.html