当前位置:首页 > 科技资讯 > 正文

美团发布LongCat-Image图像生成模型,开创中文文生图与单图编辑新纪元

美团发布LongCat-Image图像生成模型,开创中文文生图与单图编辑新纪元 LongCat-Image 图像生成 中文渲染 编辑可控性 第1张

智东西12月8日报道,今日,美团正式发布并开源了图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准6B参数模型,主要聚焦于文生图单图编辑两大核心场景。

美团发布LongCat-Image图像生成模型,开创中文文生图与单图编辑新纪元 LongCat-Image 图像生成 中文渲染 编辑可控性 第2张

▲图源:Hugging Face

从官方披露的基准测试结果来看,LongCat-Image主要对标了Seedream4.0、Qwen-Image等主流开源与闭源生图模型,其核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上。

在实际体验中,LongCat-Image在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。在涉及复杂UI设计、游戏界面生成等任务时,模型的审美也暴露出一定短板,这或许与其不具备联网搜索能力有关。

在体验入口方面,美团也同步提供了多种使用方式。在移动端,LongCat APP已支持文生图与图生图能力;在网页端,用户也可通过https://longcat.ai/进入图片生成入口进行体验。

对于开发者而言,LongCat-Image的模型权重与代码也已同步开源:

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

GitHub: https://github.com/meituan-longcat/LongCat-Image

下面我们就来看看LongCat-Image的模型结构、评测成绩和具体的实测表现。

01.从模型结构到评测成绩,LongCat-Image,把“编辑可控性”和“中文渲染”作为主攻方向

从模型设计上看,LongCat-Image采用了文生图与图像编辑同源的统一架构,并通过渐进式学习策略,在仅6B参数规模下兼顾了指令遵循精准度、生图质量与文字渲染三项能力的协同提升。

美团发布LongCat-Image图像生成模型,开创中文文生图与单图编辑新纪元 LongCat-Image 图像生成 中文渲染 编辑可控性 第3张

▲模型架构

这套训练路线并非从零开始堆参数,而是基于文生图中期训练模型进行初始化,并在后续阶段采用文生图与指令编辑的多任务联合学习机制,来避免编辑能力在后训练阶段被压缩的问题。

在图像编辑能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中取得了开源SOTA成绩

美团发布LongCat-Image图像生成模型,开创中文文生图与单图编辑新纪元 LongCat-Image 图像生成 中文渲染 编辑可控性 第4张

▲客观基准测试性能对比

...