智东西12月8日报道,今日,美团正式发布并开源了图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,主要聚焦于文生图与单图编辑两大核心场景。
▲图源:Hugging Face
从官方披露的基准测试结果来看,LongCat-Image主要对标了Seedream4.0、Qwen-Image等主流开源与闭源生图模型,其核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上。
在实际体验中,LongCat-Image在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。在涉及复杂UI设计、游戏界面生成等任务时,模型的审美也暴露出一定短板,这或许与其不具备联网搜索能力有关。
在体验入口方面,美团也同步提供了多种使用方式。在移动端,LongCat APP已支持文生图与图生图能力;在网页端,用户也可通过https://longcat.ai/进入图片生成入口进行体验。
对于开发者而言,LongCat-Image的模型权重与代码也已同步开源:
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image
GitHub: https://github.com/meituan-longcat/LongCat-Image
下面我们就来看看LongCat-Image的模型结构、评测成绩和具体的实测表现。
从模型设计上看,LongCat-Image采用了文生图与图像编辑同源的统一架构,并通过渐进式学习策略,在仅6B参数规模下兼顾了指令遵循精准度、生图质量与文字渲染三项能力的协同提升。
▲模型架构
这套训练路线并非从零开始堆参数,而是基于文生图中期训练模型进行初始化,并在后续阶段采用文生图与指令编辑的多任务联合学习机制,来避免编辑能力在后训练阶段被压缩的问题。
在图像编辑能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中取得了开源SOTA成绩。
▲客观基准测试性能对比
...
本文由主机测评网于2026-05-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545880.html