上半年,GPT-4o引发的热潮不仅让奥特曼感受到GPU资源的极度紧张,还将图像生成与视觉理解能力推向了各大模型的标准配置。
但进入下半年,那根「香蕉」——Nano Banana却真正刷足了存在感。
为了重夺领先地位,OpenAI今日正式发布最新图像视觉模型GPT-Image-1.5。这也是继GPT-5.2之后,OpenAI红色警报计划中的又一记重拳。
精简总结如下:
指令执行更准确
编辑更精确
细节保留更完整
速度提升4倍
GPT-Image-1.5最显著的提升在于「精准编辑」功能。
以往使用AI修改图像,常遇到如同与「听不懂指令的理发师」沟通的困境:只想修剪刘海,结果却成了光头。现在,模型终于能准确理解意图,实现指哪改哪。
光线、构图、人物特征等元素,在输入、输出及后续编辑过程中均能保持高度一致性。
这听起来抽象?请看官方示例。
将两名男子和一只狗合成到一张2000年代胶片风格的儿童生日派对照片中 →
添加背景中喧闹投掷物品的孩子们 →
将左侧男子改为复古手绘风格,狗变为毛绒玩具风格,右侧男子及背景保持不变 →
为所有人换上OpenAI主题毛衣 →
最后仅保留狗,将画面融入一场OpenAI直播中……
一系列操作后,画面逻辑依然稳固。这表明GPT-Image-1.5不再依赖「随机猜测」,而是真正理解了图像结构,并能执行增删改查。精准修改与稳定控制,才是当前技术的核心壁垒。
再来看几个实际测试案例。
你可能欣赏过《千里江山图》这幅传世杰作,但或许忽略了其中无数细微之处。
同理,谁规定《百骏图》中不能出现一只从现代穿越而来的网红柴犬Kabosu呢?
就连马斯克与扎克伯格那场未能成真的笼中对决,在GPT-Image-1.5加持下,也能一次性将主角替换为奥特曼。面部未崩坏,违和感近乎为零。
我们需要一张细节丰富、逼真写实的极端仰拍照片,马斯克坐在珠江岸边,单手轻搭广州塔尖。为体现巨物感,在他脚边点缀微小游船与游客。
结果,模型确实理解了「比例感」。
提示词:一张细节丰富、逼真写实的极端仰拍照片,画面中的马斯克正坐在珠江岸边,一只手搭在广州塔塔尖上,为体现巨大体型比例,可在脚边加入微小游船、观光游客等,2K,16:9
相较于初代图像模型,GPT-Image-1.5更擅长遵循复杂细致指令,保持各元素间预设关系。
官方展示了一个6x6网格图案例,每行按指定内容排列:希腊字母、动物、物品、图标、单词,模型布置得井然有序,连强迫症患者都会称赞。
实测显示,将线稿转为真实图像已成为基础操作。
文本渲染能力也进一步增强,能更好处理密集小字体内容。例如,将一段Markdown格式内容呈现为自然报纸文章布局,包括GPT-5.2发布说明、性能基准对比等,格式与数字均保持完整准确。
此能力看似普通,但对需要生成海报、宣传图、信息图表的用户而言,实为刚需。
在Nano Banana Pro问世前,生成式AI的文本渲染一直相当抽象,如今终于可堪一用。但需指出,GPT-Image-1.5的英文能力确实出色,中文表现却仍是灾难。
令其绘制「擎天柱征服火星」的中文漫画,它竟自创一门火星文。
或令其生成古人在墙壁书写《水调歌头》的图像,不仅文字错漏百出,握笔姿势竟是钢笔手法。
所幸生成速度提升4倍,一边绘制时,可同时开启新任务,试错成本大幅降低。物体知识储备仍在线,询问往水中加盐鸡蛋会如何,生成图像倒有模有样。
左侧为原图,右侧为生成图像。提示词:若往水中加入大量盐,生成一张图像,展示鸡蛋会发生什么。
博主@Yuchenj_UW认为GPT-Image-1.5生成效果约达Nano Banana Pro「专业级」水准,但「智商/推理能力」明显落后,尤其在数学题(及其他物理/迷宫类问题)上表现更差。
OpenAI此次还在ChatGPT中专门设立了图像创作入口。
网页与移动端侧边栏均可看到此新入口,内置丰富预设滤镜与热门提示词,并定期更新。上传一次肖像,后续生成皆为你,无需反复投喂图像。
坦白说,此功能Nano Banana未有,但国内图像生成模型早已普及。某种程度上,GPT-Image-1.5正借鉴国内同行的经验。
不久前,奥特曼在社交媒体分享了自己用GPT-Image-1.5生成的圣诞性感月历男模照片。
趁此机会,我们也为奥特曼更换数套皮肤。贴纸风、摇头娃娃风、素描风,预计今日之后,奥特曼将成为互联网上最忙碌的人物。
有一细节值得称赞:当要求生成预设方案时,OpenAI会公开预设提示词。从此点看,OpenAI确实展现了开放态度。
此外,制作贺卡、创建专辑封面、修复老照片、拍摄专业求职照等均是实用预设方案。例如,那张经典的鲁迅与泰戈尔合照,经修复后效果颇为出色。
OpenAI应用CEO Fidji Simo在博客中写道:「人类思维不仅由文字构成。事实上,我们最具创意的想法,常起源于脑海中的图像、声音、动作或模式。」
她透露,ChatGPT正从反应式、以文本为核心的产品,转向更直观、更贴合多样任务需求的工具。从纯文字向多媒体与动态界面转变,是此进化过程的关键一步。
许多用户首次接触ChatGPT是通过文字生成图像。但ChatGPT聊天界面最初并非为此设计。图像创作与编辑是截然不同的任务,需专用视觉空间支持。因此,OpenAI为其设立专属入口,让图像生成拥有更似创意工作室的环境。
OpenAI的计划不止于此。未来将引入更多视觉元素,优化ChatGPT整体体验。例如,未来进行搜索查询时,结果将包含更多图片与清晰来源。在单位换算或查阅体育比分等任务中,用户需要一目了然的可视化结果,而非文字描述。
甚至写作体验也在改进,未来内置写作模块允许在聊天中直接编辑,并一键导出PDF或调用邮件应用发送。ChatGPT早已非单纯语言模型,它正转变为真正的多模态工作台。
当然,除普通用户外,开发者也可通过API使用GPT-Image-1.5。
相比GPT-Image-1,GPT-Image-1.5具备更强品牌元素与关键视觉保持能力,适合电商、品牌营销等需生成大量变体图像的场景。图像输入输出费用降低20%,同等预算可生成更多图像。
降价与提效,这套组合拳颇为实在。
此外,迪士尼上周已宣布向OpenAI投资10亿美元,并达成合作协议。
根据此项三年授权协议,OpenAI旗下Sora及图像生成模型均可生成迪士尼、漫威、皮克斯和星球大战旗下角色,计划明年初正式上线相关功能。
内容IP与AI生成结合,背后想象空间巨大。
更重要的是,GPT-Image-1.5发布标志着图像生成工具正从「玩具」向「工具」转变。
目前市面多数AI改图工具,一改即崩,毫无一致性可言。
GPT-Image-1.5至少在此方向迈出坚实一步。它开始具备后期编辑能力,能像Nano Banana Pro一样控制细节,确保画面连贯。
此外,在模型能力相对较弱情况下,GPT-Image-1.5通过更完善的图像生成预设方案及功能设置,实现对Nano Banana新版的反击,确是明智选择。
专属图像创作入口、预设滤镜库等,这些看似简单的产品设计,恰恰击中普通用户痛点。许多人无需最强模型,他们需要能快速上手、无需反复调教、生成结果大致满意的工具。
模型能力领先仅是第一步,如何将能力转化为易用、好用、用户喜爱的产品,才是真正护城河。
本文由主机测评网于2026-02-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224339.html