当前位置:首页 > 科技资讯 > 正文

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清

无论是泛黄的老照片、AI生成的低分辨率图片,还是遥感影像、医学图像,如今都能通过智能技术修复并提升至4K超高清级别。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第1张

提升图像清晰度一直是计算机视觉领域的经典难题。面对噪声、模糊、压缩伪影等复合退化,以及AI合成图像、遥感影像、生物医学图像等特殊类型,传统单一模型往往难以胜任。

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent,能针对不同类型的图像及需求进行智能修复并放大至4K分辨率,带来卓越的视觉体验。该成果已被NeurIPS 2025接收。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第2张

现有图像放大技术为何存在局限?

传统图像放大模型通常仅在特定类型图片上表现优异,一旦面对现实世界中的复杂模糊、AI生成图像的伪影,或遥感、医学等专业图像,往往显得捉襟见肘。

将分辨率提升至4K,更是对细节重建和纹理真实度提出了极高要求。从多数用户角度看,一个既通用又可配置的解决方案来满足多样化的图像提升需求无疑是理想之选。4KAgent正是在这些现实挑战与需求背景下应运而生。

基于多智能体架构,4KAgent能够为每张图像量身定制一条通往4K分辨率的优化路径。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第3张

4KAgent如何运作?三大核心模块解析

1. 智能分析,精准诊断

感知智能体(Perception Agent)负责分析图像内容及其退化信息,为后续修复提供执行方案。

首先,图像分析器(Image Analyzer)调用多种图像质量评估工具,获取输入图像的多个感知质量指标QI=(Q1,Q2,…)。

接着,退化推理(Degradation Reasoning)利用视觉语言模型(VLM)结合输入图像及感知质量指标QI进行推理,识别图像中的退化信息DI及初步的复原任务列表AI′等信息,并配置放大倍数(Upscaling Factor Configuration):计算图像放大到4K所需倍数s,在初步任务列表中添加对应的图像超分辨率任务,形成最终任务列表AI。

最后,任务规划(Task Planning)基于前述信息,利用大语言模型(LLM)或视觉语言模型(VLM)为输入图像制定复原计划(Restoration Plan)PI,明确各复原任务的执行顺序。

2. “执行-反思-回滚”动态优化

复原智能体(Restoration Agent)在执行复原计划PI的每一步时,采用“执行—反思—回滚”机制:

执行(Execution)阶段,4KAgent按顺序执行PI中的复原任务。4KAgent主要支持九种不同的复原任务,并收集了对应领域最先进的模型构建工具栏。通过调用不同模型,生成多张候选复原图像。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第4张

反思(Reflection)阶段,复原智能体依据质量评分QS对候选图像进行评估,选出得分最高者作为输出。4KAgent设计的QS综合了无参考图像质量指标(NIQE、MANIQA、MUSIQ、CLIPIQA)及人类偏好分数HPSv2,整体流程可视为质量驱动的专家混合系统Q-MoE

若选出的图像质量评分低于阈值η,则触发回滚(Rollback)机制:4KAgent生成上下文信息传递给感知智能体,生成调整后的复原计划PIadj,并为当前步骤指派新的复原任务。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第5张

此外,4KAgent集成了人脸修复模块(Face Restoration Pipeline):检测并裁剪图像中的人脸,应用多种人脸修复方法获得多个结果,基于人脸质量评分Qsf选出最佳人脸,贴回原图。

4KAgent还设置了Fast4K模式以控制运行时间。当图像尺寸超过预设阈值St时,自动剔除工具栏中推理耗时较长的方法,加速处理。

灵活配置,适配多元场景

为适应不同图像复原场景,4KAgent设计了配置模块(Profile Module),提供可调的使用偏好(如优先感知质量还是保真度、是否激活人脸修复等),使系统能灵活适配各类场景且无需额外训练

总体而言,4KAgent通过分工明确的智能体实现分析决策与执行反思,并借助配置模块灵活适应不同需求,达成通用的4K超分能力。

实际测试效果

4KAgent在11种图像超分辨率任务的26个基准测试集上进行了全面评估,涵盖经典图像超分、真实世界图像超分、多重退化复原、大尺度超分(16倍),以及AIGC图像、遥感图像、生物医学图像等专业领域。

在经典图像超分(Classical Image SR)和真实世界图像超分(Real-World Image SR)任务中,4KAgent生成的图像细节更丰富、更精准,如树皮纹理、鹿角结构、羽绒服质感及数字清晰度均显著提升。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第6张

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第7张

在极具挑战的16倍放大任务中,4KAgent生成高细节且逼真的纹理,如岩石与草丛、人脸的发丝与眉眼细节。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第8张

研究还构建了DIV4K-50测试集(50张4096×4096高质量图像下采样至256×256并加入复合退化),用于检验256×256→4096×4096的复原超分能力。在此场景下,4KAgent始终能重建更精细、自然的细节,如人脸、毛发等。

4KAgent:全能AI修图师,一键将任意图像智能修复至4K超清 AI智能体 图像超分辨率 4K修复 多模态 第9张

全能型4K超分“AI修图师”

4KAgent是一个可控且通用的图像复原及4K超分辨AI智能体系统,旨在将各类图像提升至4K分辨率。其在自然场景、人像、AI生成内容,以及遥感、显微镜、医学影像等专业科学模态中均展现出优异性能。在标准基准测试和专用数据集上的全面评估表明,4KAgent无需特定领域再训练,即可在各场景下达到优秀复原效果,彰显了强大的泛化能力,为消费级、商业级及科研级应用中的通用部署提供了实践价值。 

项目主页:https://4kagent.github.io/

代码下载:https://github.com/taco-group/4KAgent

文章链接:https://arxiv.org/pdf/2507.07105DIV4K-50

数据集:https://huggingface.co/datasets/YSZuo/DIV4K-50 

作者及研究机构:

第一作者:左育莘(Yushen Zuo),德克萨斯A&M大学(Texas A&M University)研究实习生

通讯作者:涂正中(Zhengzhong Tu),德克萨斯A&M大学(Texas A&M University)助理教授

研究机构:德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs、加州大学Merced分校