当前位置:首页 > 科技资讯 > 正文

Nano Banana功能引爆Gemini月活用户至6.5亿,AI图像模型重塑创意未来

Nano Banana功能引爆Gemini月活用户至6.5亿,AI图像模型重塑创意未来 Gemini  Banana AI图像生成 多模态AI 第1张

“当得知Gemini应用的月活跃用户数已突破6.5亿时,真是令人惊讶,这很大程度上要归功于Nano Banana功能的流行。”Hyperbolic Labs联合创始人兼CTO Yuchen Ji在阅读谷歌最新报告后评论道。

近日,谷歌CEO Sundar Pichai在推特上兴奋地宣布:“我们首次实现单季度营收超过1000亿美元,这是公司历史上的里程碑,且每个主要业务板块均实现了两位数增长。(对比五年前,季度营收仅为500亿美元🚀)”

目前,ChatGPT拥有8亿周活跃用户。在消费级应用层面,谷歌的追赶速度惊人。特别是前阵子Nano Banana的爆火,让谷歌在众多AI模型中脱颖而出。

据应用分析公司Appfigures的数据,在Nano Banana发布期间,Gemini的下载量急剧上升,而Adobe的生成式AI图像与视频应用Firefly的下载量却显著下滑。虽然尚未完全证实两者有直接因果关系,但时间点高度吻合。

Gemini应用负责人、谷歌实验室副总裁Josh Woodward表示,这款工具的走红带来了意想不到的连锁效应。更重要的是,许多原本只为体验Nano Banana的用户,后来开始使用Gemini处理其他任务。

“我们看到应用的用户结构发生了显著变化,”Woodward在接受外媒采访时指出,这包括18-34岁年龄段用户“大幅增加”,且用户群体此前以男性为主,现在吸引了更多女性用户。吸引年轻用户对谷歌而言是个利好,公司一直担忧他们将更多时间花费在TikTok等社交媒体上。

Woodward还透露,Gemini的国际用户数量也在快速攀升。这并不意外,因为Nano Banana曾掀起全球热潮:用户用它制作个性化的3D人偶。“那波热潮最早从泰国兴起,”Woodward说,“一位网红发布了视频,随后迅速蔓延到越南、印尼,几乎一夜之间火遍东南亚。”

对谷歌来说,通过像Nano Banana这样的爆款功能吸引用户,是一个巧妙的入口。许多人因好玩而下载Gemini,但一旦留下来使用其他功能,谷歌就取得了成功。Woodward也坦言,公司非常关注这种“留存粘性”——用户是否会持续回访、形成使用习惯。据悉,谷歌将月活跃用户定义为在安卓、iOS系统打开应用,或通过网页使用应用并进行互动操作的用户。不过,该定义会排除非常基础的操作请求,比如用户设置计时器。

最近,谷歌DeepMind首席科学家Oliver Wang、产品经理Nicole Brichtova做客a16z播客节目,与a16z合伙人Justine Moore、专注人工智能和基础设施投资的Guido Appenzeller和Yoko一起探讨了Nano Banana的诞生过程、病毒式传播原因以及图像和视频编辑的未来。我们翻译了该内容,并在不改变原意基础上进行了删减和整理,以飨读者。

Nano Banana的起源

Yoko:能不能先聊聊Nano Banana模型背后的故事?它是怎么诞生的?

Oliver Wang:当然。我们团队一直专注于图像模型,此前开发过Imagine模型系列,已有多年经验。在Gemini 2.0推出图像生成功能之前,Gemini内就已集成过一个图像生成模型。后来团队重心逐渐转向Gemini相关场景,如互动、对话、编辑等。于是,多个团队协作,将这些能力融合,最终打造出大家熟知的Nano Banana模型。

Brichtova:我们的Imagine模型一直以视觉质量著称,特别是在生成和编辑任务上。Gemini 2.0 Flash推出后,我们首次感受到“图文同时生成”的魔力,可以边讲故事边生成图像,还能通过对话修改图片。唯一遗憾的是,当时画质未达理想水平。于是Nano Banana,即后续的Gemini 2.5 Flash Image版本,应运而生。

Yoko:但我得说,Nano Banana这个名字酷多了!

Brichtova:是啊,也更易发音。它融合了Gemini的智能与多模态互动特性,以及Imagine的高视觉质量优势。我认为这正是它能引发广泛共鸣的原因。

Yoko:在开发过程中,有没有什么让你们觉得‘哇,要火了’的时刻?

Oliver Wang:老实说,直到模型上线LMArena平台前,我都没预料到它会爆火。当时我们预估的流量与以往模型相似,结果访问量暴涨,不断加配额都难以满足。那一刻我才意识到,“哇,原来这么多人真心喜欢用它。”即使网站仅在部分时间可访问,用户仍踊跃尝试。这对我来说是第一个惊喜时刻。

Brichtova:对我来说,“哇”的时刻更早一些。我常用相同指令测试不同代际的模型,比如“让我看起来像宇航员”“让我去探险”或“走红毯”。直到在内部测试版上运行这些指令时,首次生成的图像竟高度像我本人。以往需专门微调(如LoRA)才能达到类似效果,还要上传多张图片、训练半天。这次却是零样本直接生成,我当场震惊。后来我做了内部展示,整份演示文档全用我的脸部图像生成。

等更多同事亲自尝试后,他们也觉得神奇。看别人用有趣,但将自己、家人(孩子、配偶)甚至宠物放入模型后,情感共鸣更强烈。随后内部兴起“80年代风格改造自己”的热潮,那时我们都意识到:这东西真有潜力。

Oliver Wang:测试这类模型确实有趣,因为你能看到用户用它创造出惊人作品,许多超乎想象。

是否形成职业冲击?

Guido:长远看,我们其实在打造一批能变革视觉艺术的新工具。以往复杂的PhotoShop手动操作,现仅需一行命令。那未来艺术创作该如何教学?五年后大学艺术课会是什么样?

Brichtova:我认为会出现多元化场景。在专业领域,许多创作者表示,这些模型能帮他们省去繁琐工作,将90%时间投入创意,而非以往90%时间用于编辑和手动操作。我对此非常期待,相信将推动创意领域爆发。

对消费者而言,大致分两类场景。一是进行有趣创作,如为孩子设计万圣节服装并分享给亲友;二是处理实用任务,如制作PPT。我曾任顾问,常花大量时间美化PPT、梳理逻辑,但未来可能只需告知Agent需求,它就能帮你排版并生成贴合内容的视觉元素。

总之,这取决于你的需求:是想参与创意过程并与模型协作调整,还是希望模型完成任务而自己少参与。

Guido:在这样世界中,什么才算‘艺术’?有人说,艺术是能创造‘分布之外的样本’,你觉得这定义准确吗?

Oliver Wang:我认为分布样本的说法太严格。许多伟大艺术实则是在既有艺术语境内的延伸。艺术定义本就是哲学问题,对我而言,艺术核心在于‘创作者的意图’。AI生成仅是工具,真正艺术源自人的选择与表达。

我不担心职业艺术家或专业创作者,因为我发现,若让我面对这些模型,我根本创作不出引人注目的作品,但他们总能利用最新工具创造出有灵魂的作品。

Justine:许多艺术家曾不愿用AI,因觉得难以控制,如角色不一致、风格无法复用。你们训练Nano Banana时,是否特别优化了这些点?

Oliver Wang:是的,我们开发中特别关注‘可定制性’和‘角色一致性’,并尽力优化。交互式对话的迭代性也很重要,因为艺术创作本就是迭代过程,你会不断修改、审视方向、再调整。模型在这方面很实用,但我们仍有改进空间,例如长对话中模型遵循指令的效果会下降,这是我们重点改进的方向,希望它更像自然的创意伙伴。

Guido:若与视觉艺术家聊此话题,常收到怀疑回应,如‘效果太差’等。难道大家意识不到AI仅是新型工具,终将为艺术家赋能吗?

Oliver Wang:我认为这与对输出结果的控制度有关。早期文生图模型类似一次性工具——输入文本即得输出,普通用户觉得‘看着还行,至少是我创作的’。但这种模式可能让创意人士不适,因为他们知道绝大多数决策由模型和训练数据主导,自己未真正参与。

确实,这不算真正创作。身为创作者,应拥有更大自我表达自由。因此,我认为随着模型变得更可控,类似‘这完全是计算机操作’的担忧会消散。

另从角度看,我们曾对模型生成的图像惊叹不已,看到作品时会赞‘哇,大模型竟能做到这水平’,但新鲜感很快消退。哪怕是当初最惊艳的图像,现也能一眼看出‘哦,这是单次提示词生成的,作者未花多少心思’。新奇过后,创作门槛再现:我们必须用AI工具创造有趣内容,而这始终很难。我们仍需要艺术家,只有他们能更好做到。艺术家也更善辨别哪些作品蕴含真正的掌控调整与创作意图。

Brichtova:艺术创作需深厚技艺积淀与审美品味,这常需数十年形成。我认为这些模型不具备真正审美能力,之前提到的抵触情绪或许正源于此。

我们确实与跨领域艺术家深度合作——涵盖图像、视频、音乐等,希望携手推进技术边界。许多人充满热情,他们贡献的是数十年设计积淀的专业知识。我们正与Ross Lovegrove合作,基于其手稿对模型进行精细分析,进而创造全新作品。我们还设计了实体原型椅进行物理验证。

许多艺术家渴望将自身积累的专业知识与描述作品的丰富语言融入模型对话,借此突破创作边界。须知,这绝非一、两分钟编写的提示词就能实现,需大量审美积淀、人类创造力与匠心工艺注入,最终才能升华为艺术。

Oliver Wang:我觉得还存在一种现象:大多数创意内容消费者,甚至包括非常关注创意内容的受众,其实不清楚自己到底喜欢什么。必须有远见者创造出新奇独特作品,展示时人们才会惊叹‘太棒了’。也就是说,大家更善欣赏,但无法独立构思这些创意载体。

因此在我们优化模型时,虽会根据大众平均偏好调整,但也意识到这很难产生有趣成果。否则最终做出的就是人人觉得还行,却无法直击人心的作品——那种能彻底改变艺术认知的作品。

Guido:未来孩子学画画,会不会是在平板上随意涂几笔,AI就帮他们变成精美作品?

Brichtova:我倒希望别那样(笑)。我不确定是否需要将孩子的画都变成‘漂亮图像’,更理想的方式是,AI像伙伴或老师。我自己不会画画,也无天赋,但我希望这些工具能教孩子绘画步骤、给出修改建议,甚至像图像‘自动补全’一样,提示下一步该做什么,或提供选项并解释做法。我不希望5岁孩子的画都变得‘完美’,那样会丧失重要元素,如孩子的创造力与独特视角。

Oliver Wang:有趣的是,我们训练模型画‘儿童蜡笔风格’时,它反而难以做到,因为那种抽象程度高,看似简单,实则困难。

总之,我对AI在教育领域的应用非常乐观。多数人其实是‘视觉型学习者’,而当前AI教学还局限文字和语音。但学生不这样学习。想象一下,解释概念时,若能边讲原理边配图、配动画,学习效果将大幅提升。这会让知识更有用、更易获取,非常令人期待。

AI工具,更专业还是更简单?

Yoko:自你们发布Nano Banana后,好多人都在谈‘编辑模型’。Oliver,你曾在Adobe工作,怎么看模型层和传统软件编辑的演化?

Oliver Wang:Adobe这类专业工具的特点是有许多控制项、‘按钮’,需高控制度。但现在存在平衡问题:我们既希望普通人在手机上用语音就能编辑,同时也希望专业创作者能进行精细调整。目前我们尚未完全解决此平衡,但已有许多人在开发优秀UI,实现方式多样。

Brichtova:我个人希望未来无需学习所有控制按钮含义,模型能根据已有操作智能推荐下一步可做什么,这是值得探索的方向。未来的UI可能无需学习以往复杂操作,工具会根据你的行为主动提示它能做什么。

Guido:专业人士只关心结果,他们愿接受高复杂度,也有相关训练和经验,Cursor界面也不是简单的单文本提示。所以未来是否会有面向专业用户的超复杂界面,也有面向普通用户的简单界面?

Oliver Wang:我其实挺喜欢ComfyUI这种节点式界面,虽复杂但功能极强。现许多人用Nano Banana生成故事分镜、视频关键帧,将不同模型串联成工作流,效果惊人。我认为无论专业还是普通用户,这类界面都很棒。对专业用户而言,未来会发展成什么样子仍是未知数。

Brichtova:这取决于目标用户。例如对我父母这类人群,聊天界面就很好用,他们只需上传图片然后说‘帮我改改’即可,无需学习新工具。而专业创作者需要强控制力。中间那群想创作但被专业工具吓退的人,也会有自己的新界面形态,这里也存在很大机会,有许多需求待满足。

Yoko:未来会是‘一家模型打天下’,还是‘多个模型协作’?

Oliver Wang:我绝不认为有任何模型能满足所有需求,未来一定会有多样化模型。例如,我们会优化某些模型的指令遵循能力,确保它完全按用户要求做,但这类模型可能不适合需要启发灵感的场景,在那种场景下,用户希望模型更‘自由’,能跳出框架给灵感。

多模态能力成为必须

Yoko:你是否认为,未来要成为领先的大语言模型或视觉艺术形式,必须同时具备图像、语言、音频等多模态能力?

Oliver Wang:百分之百认同,我坚信应如此。最让我振奋的AI模型未来图景,是它能成为帮助人类达成更多目标的工具。试想未来会出现自主运作的模型,它们会彼此对话并完成所有工作,这时视觉沟通模式的必要性可能会降低。但只要仍有人类参与,只要解决任务的动机源自人类,那视觉模态对未来一切AI智能体都至关重要,这也是完全合乎逻辑的判断。

Guido:我们终将迎来这样的大模型:提出图像生成需求,它会思考一、两个小时,设计草稿、探索不同方向,最终给出成果。

Brichtova:且不仅限于单张图像。假设大家在重新设计房屋,又不想参与具体流程,那只需提供灵感素材,比如‘我喜欢这样的风格’,然后像跟设计师沟通那样把素材发给大模型即可。

Guido:这不就是视觉层面的Deep Research吗?

Brichtova:没错,这个总结很到位。系统会自动运作,例如搜索适合用户居家环境的家具,然后提供设计方案。毕竟谁愿花整下午挑家具呢?还得提防‘照骗’。

Guido:目前围绕世界模型、图像模型乃至整体框架仍存在诸多争论,能不能给我们点启发,比如简要概括你的结论?

Oliver Wang:其实我也不能完全确定,但现实世界确实是3D的。若能建立具备明确3D表示的世界模型,就有望让所有角色保持一致性。当前主要挑战是,我们不可能随身携带3D捕捉设备,因此可用于模型训练的数据大多是投影后的2D图像。而3D和2D这两种视角,都将成为支撑未来发展的重要前提。

我更倾向于支持投影视角。我觉得若能直接处理2D形式的世界投影,让模型学习潜在的世界表征,那也足够解决大部分问题。视频模型展现的出色3D理解力已证明这一点:在对已生成的视频运行重建算法后,其精度可达极高水平。纵观人类艺术史,创作最初不也是从投影开始的吗?洞穴壁画就是最好证明。所有交互界面的本质都是2D的,因此人类天生擅长将3D世界投影成2D平面,这才是最自然的交互与观赏环境。

Yoko:我们有很多办法造成视觉欺骗,把3D的画成2D的或把2D的画出3D效果。但问题在于,如果景深过大,又该如何解决?

Oliver Wang:我倒觉得没关系。以机器人问题为例,我觉得2D表示对于宏观规划和可视化同样有很大帮助。就像人类导航时,也是通过记忆中的2D投影实现——大家并不会在脑海中构建3D地图。更多情况是‘看到这栋楼就左转’。所以这类规划使用2D完全合理。但实际空间移动时,3D确实重要,机器人应用也必然没法完全脱离3D。

Yoko:角色一致性实在太难实现,做不好会形成巨大恐怖谷效应。怎样判断生成的内容是否合格?

Brichtova:观察面部特征。

在实际发布前,在开发这套模型过程中,最初就是通过角色一致性测试和人脸识别来做验证的。我们当时还没找到最理想的具体机制,但随着一步步自测,我们很快意识到怎样稳定呈现熟悉的面孔。

我们为此做了大量目测评估,让团队成员们相互测试、也测试自己认识的人,比如Oliver肯定认识我,所以能分辨生成出来的像不像我本人。理想情况下,还应测试不同年龄段人群,覆盖更广泛对象以确保模型具有普适性。

Oliver Wang:没错,这其实涉及更深层问题——这方面评估极其困难,因为人类感官对不同细节的关注度其实极不均衡。所以我们真的很难判断模型的角色一致性到底够不够好。哪怕是现在,我也觉得角色一致性还有很大改进空间。

但在某些应用场景中,我们已来到关键节点,一旦角色一致性的质量突破特定阈值,它就可以赋能更多领域,最终推动技术迎来爆发式增长。随着技术进步,其应用场景也将不断拓展。

Justine:虽然当前基准测试已非常强大,但在涉及图像和视觉这类高维度对象时,随着模型性质的持续提升,我们越来越难以依托单一评判标准总结模型优劣。那么你们在模型部署决策和训练过程中如何判断?

Oliver Wang:确实有这种情况。我之所以喜欢做这个方向,就是因为这里没有标准答案。模型中融入了大量——我不知该叫品味还是偏好性元素,而且不同研究实验室发布的模型往往也体现出这种偏好和差异。毕竟在权衡两种因素时,很多时候就是得靠研究人员做出模糊选择,比如‘说不清楚,但我就是觉得这个效果更好’或‘我觉得这项特性对我们更重要’。

‘绝对优先的事项清单’

Justine:我猜你们也面临不小压力吧,毕竟用户基数有这么大。以谷歌为例,他们的Gemini应用面向全世界开放,自然就得比AI小厂承受更多指责。许多同类模型只服务专业创作者或消费级创作者,而你们却选择了一条独特、激动人心但也充满挑战的道路——接受全球用户检验。那你们是怎么判断大众需求的?

Brichtova:确实,有时我们不得不做出权衡取舍。我们有一份绝对优先的事项清单,这里的条目必须得到严格保证。

例如,角色生成功能一直表现卓越且拥趸众多,所以我们绝不允许后续模型在这方面退化。我们也很重视图像的照片级写实度,比如广告场景中常见的产品和人物呈现,用户就是想要获得照片级别的生成结果。那我们就必须确保能够满足这方面需求。

但有了必须完成的部分,就一定会有被暂时搁置的部分。在这次发布的初版中,模型的文本渲染效果就没达到预期水平,这也是我们接下来需要改进的方向。但综合考量之后,我们觉得模型已在多个领域表现优异,那么单此一项不足尚可接受,它已经值得发布,且有望为用户带来充满趣味的探索体验。

Guido:回我们以往经常借助ControlNet这类辅助模型,通过提供结构化数据以实现特定效果。而新一代模型在这方面似乎略有退步,也就是在摆脱结构化数据需求,开始直接根据提示词或参考图像进行生成。长期来看,这种趋势又将如何发展?

Oliver Wang:总会有用户愿放弃开箱即用的便利,转而追求更强的运行控制权。而我们则努力让模型理解创作者的意图,毕竟艺术家创作的原始渴望就是得到理解。这些AI模型在捕捉用户意图方面可谓是日益精进。如今在输入文本指令后,模型往往就能准确捕捉到用户指定的目标。所以从这个角度看,我觉得我们的模型在理解用户意图方面已取得显著进展。

这当然也适用于个性化定制,比如理解大家的创作目标并参考过往操作记录。但只要准确理解了创作意图,通常就能很好地完成相应类型的编辑任务。例如:当前任务到底是需要严格保留结构关系的编辑操作,还是追求自由发挥的创作操作?我认为模型可以发展到这样的程度。当然,一定还会存在极致追求者,他们希望图像精确到像素级别——比如要求某个元素微微左移或把蓝色的饱和度调高一点点。那这类用户配合现有工具来做就可以了。

Guido:举个极端点的例子,我可能想让26个人用身体拼出全部英文字母,这样的效果我们还远远实现不了。不过在配合结构化信息之后,也许这个问题将不再难解决。

Oliver Wang:对于这种需求,哪怕是最终能够实现,也得花费大量时间来做调整和定制。所以暂时就先搁置吧,后续慢慢解决。

Guido:那你觉得未来的AI图像表现形式还会有哪些转变?

Oliver Wang:在我看来,一切形式都是像素形式的子集。文字也可以说是像素的子集,对吧?因为我们完全可以把所有文字都渲染成图像。所以单凭像素所能表现的边界在哪里,确实是个有趣的问题。我觉得如果模型响应足够快且能处理多轮交互,那也许会出现更多新的形式。毕竟人们超越像素的主要动机在于可编辑性,比如使用自定义字体、修改文本内容或通过控制点来调整布局等等。

混合生成模式也许会成为新的热点,就是把像素和SVG等多种形式结合起来。但如果多轮交互发展得足够完善,仅凭像素技术也能实现相当程度的突破。

我认为这类原生能力模型最大的亮点就在于,它既能生成代码、又能生成图像。这种交叉领域间蕴藏着无限可能——例如编写的代码既能实现某些元素的栅格化处理,又能保留参数化特性。这样将多种能力整合训练,即可实现高度协同。

Yoko:这观点太棒了。我确实在推文上看到有人尝试用Claude Sonnet在Excel表格上重现图像——每个单元格对应一个像素点。这无疑是个超级有趣的实验。Sonnet本质上就是个编程模型,对图像本身并无概念,但居然真的成功了。

Justine:你们在这种问题上是怎么权衡的:是只允许用户通过Nano Banana界面编辑生成图像,还是希望更多用户通过API调用模型来开发出多样化应用?

Brichtova:我觉得这两方面都有吧。Nano Banana的妙处在于,它展现了如何把趣味性作为实用性的入口——人们最早会用它为自己制作虚拟形象,但最终留下来却是因为它能帮自己解决数学难题或者做作业,这种从娱乐到功能的过渡模式极具价值。

作为一家公司,我们正积极探索构建新型交互界面。大家可能已经看过Josh团队开发的Flow工具,它要做的就是重新定义专为AI影片制作者服务的创作工具。

对AI影片制作者而言,图像迭代是创作流程中的核心环节,毕竟视频制作不易。许多人在创作之初会以帧为单位进行思考,也有人会直接从大语言模型起步,通过对话启发头脑风暴、构思创作方向。所以在这个领域,我们确实有许多探索空间,比如思考特定描述下应该呈现出怎样的视觉效果。我们的优势在于能紧贴模型和接口进行开发,实现紧密耦合。

当然,我们恐怕不会为建筑公司开发软件——虽然我父亲就是建筑师,他应该喜欢的,但这并非我们的创作方向。这就是我说的两方面都有,我们会直接服务开发者群体,也会覆盖企业客户。用户可以运用这些模型为特定受众设计下一代工作流程,帮助他们解决实际问题。我认为两者之间并不冲突。

未来迭代方向

Yoko:你们下一步怎样让更多用户把Nano Banana作为一切下游任务的基础模型?

Brichtova:我认为首先要攻克的应该是延迟问题。如果模型只需要10秒左右就能生成下一帧,那迭代过程就会充满乐趣。但如果每次操作需要等待两分钟,那用户没准直接就跑掉了。二者的体验截然不同,所以延迟很重要。当然这里也得设置必要的质量门槛,单纯速度快但质量欠佳,那么速度将毫无意义。只有满足质量基准之后,速度才能真正成为效能倍增器。

我认为将信息可视化应用到教育领域,也属于这样的范畴,因为这肯定离不开优质文本和确凿的事实依据,对吧?这类视觉化内容解释素材不仅要美观,更要准确无误。因此我认为这很可能就是下阶段的发展方向——最终形成完全个性化的教科书,不仅文本内容因人而异,视觉内容同样因人而异。

而且还应该具备很强的国际化能力,毕竟现在我们在网上寻找能为自己答疑解惑的内容时,这些素材使用的可能并不是我们的母语。我觉得更灵活的视觉呈现能够成为提升信息可及性的新途径,一方面打破语言的隔阂,另外也能适应很多视觉学习者的思维习惯。

Yoko:那你对图生成视频技术怎么看?我之前看到有人编写脚本持续向Nano Banana发出提示词,要求不断生成下一帧画面,最终形成视频。

Oliver Wang:我觉得确实如此,视频跟图像其实紧密相连。另外,在序列预测这类新兴应用场景中,我们发现模型正逐步掌握泛化能力与世界认知。

至于未来发展方向,视频肯定就是最明确的下一步潜力领域。就像在编辑画面时,我们常会猜测:如果这样操作,结果会怎样?视频恰恰具备这种特性,天然拥有依时间序列推进的动作变换。目前我们只能直接操作帧率较低的视频,相信未来一定会发展出能够完全实时交互的视频编辑体验。

Guido:你应该属于百分之零点几的先锋用户了,那除了测试现有模型,你会如何在日常工作中运用这项技术?

Oliver Wang:我也不敢说自己算不算顶尖,但我可以试着聊聊。如之前提到,我一直觉得个性化功能才是真正核心的价值。

我有两个孩子,年纪还很小,我用模型做过的最棒的事情就是跟他们一起创作,比如赋予他们的毛绒玩具生命。这类应用既私密又令人满足。还有不少用户会对多年前的家人合照做修复。影像编辑模型的真正魅力在于,它能让我们聚焦于自己最珍视的事物。就个人而言,它就是给我和孩子们最珍贵的礼物。

Brichtova:现在每次制作演示文稿时,我都会强迫自己生成符合上下文的图像,然后努力完善文字内容。我们还会尝试突破边界,例如能不能在像素空间中制作图表之类。这又是另一个问题了,但真的很有趣,比如生图模型能给出定位精准的柱状图吗?我们团队确实做了很多这类尝试,合作团队成员的创造力也给我留下了深刻印象。他们与我们紧密协作,参与模型开发并不断突破边界,尝试用模型实现各种疯狂创意。

Yoko:那你见过最惊人的案例是什么?

Brichtova:其实有些看似简单的应用也能让人印象深刻,比如纹理转移技术。人们会拿肖像图去做纹理转换,比如‘如果换成木质纹理会怎么样’?我完全没想到过这样的应用场景,因为我的脑洞还没那么清奇。但正是这些乐于突破边界的人,才一步步拓展着技术的可能性。

Oliver Wang:对我来说最激动人心,也最令人印象深刻的,就是那些用于测试模型推理能力的应用场景。我们有团队成员发现,可以给模型出几何题,比如要求它求解x值、填充缺失信息,或从不同视角呈现物体——这些都属于需要依托世界知识才能完成的任务。当前顶尖语言模型在这些问题上恰好做得特别出色,简直神奇。我真的没想到现在的大模型已经到了这个程度。

Yoko:那它能在黑板上生成可编译的代码吗?比如我直接把笔记本屏幕上的代码拍下来,能让它直接处理吗?

Oliver Wang:我还真看到过实例:人们输入HTML代码图片,模型就能据此渲染出网页。这真的厉害。我自己是搞学术的,经常需要在论文中的图表身上耗费大量时间。有位同事拍下他们论文中的一张结果图,内容涉及多种方法的应用场景,然后再要求模型处理图片。最终发现只要提供输入数据,模型就能根据论文图表中的方法解决问题,把答案再整理成新的图像,甚至拥有很好的多应用场景处理能力。真的令人惊叹。

Yoko:太酷了。那有没有基于这项能力开发应用程序,具体又有哪些应用场景?

Oliver Wang:我认为存在很多极具潜力的零样本迁移能力,比如问题求解类的应用——至于其上限目前还不确定。这些应用可能相当实用,比如在需要解决某个特定问题时,例如计算场景法线方向或物体旋转角度,完全可以通过提示模型来获得合理的估计值。所以我觉得还有很多很多待解的问题,比如认知类的等等,或者能通过零样本或少样本提示词来解决,只是目前还没找到很好的实现办法。

Yoko:在很多世界模型或者视频模型中,总存在某种状态保持机制。比如换个观察角度,椅子并不会因此消失或者变色,因为真实世界不会这样。你怎么理解这个问题?你觉得图像模型能不能理解这种相关性?你们接下来会不会朝这个方向去做优化?

Oliver Wang:确实,如果考虑具备长时序上下文的图像模型,能够整合文本、图像、音频、视频等多模态信息,那么模型在生成最终图像或视频时,必然需要依据这些上下文进行推理。因此我认为现有模型确实具备处理此类任务的能力,但我还没做过这方面测试。

Yoko:有没有那种你觉得很有搞头,但用户却很少提及的功能?

Oliver Wang:简单来说,我们很意外为什么大家不讨论那种用一条提示词生成多张图像的功能。比如按要求生成类似睡前故事,或者让同一角色贯穿多种不同图像。我猜大家可能还没意识到这项功能的作用,或者是还没想到可以这么用。

Yoko:那接下来几个月或者几年内,你们最希望能攻克的技术挑战是什么?

Oliver Wang:我认为图像质量的提升空间其实很大。很多用户在看到图像时会说‘基本完美了,可以收工了吧’。我们也经历过鸡蛋里挑骨头的阶段,因为用户只会展示自己最得意的作品。但现在更重要的是得拉高图像质量的下限——毕竟任何模型都能靠筛选拿出看似完美的图像,可最差图像的表现也很重要。

现在真正的核心问题在于,模型的表现力如何、在特定任务下产出的最差图像质量又是什么水平。我认为通过提升最差图像质量,才能真正拓展模型的应用场景。比如在各类生产力应用场景中,能不能让效果远超已知的提示词创意任务。我们接下来应该会朝这个方向推进,随着模型能够合理完成更多任务,它们的应用场景就会大幅增加。

Yoko:随着下限能力的提升,会催生出哪些新的应用场景?

Oliver Wang:我最关注的还是教育领域的应用验证,之前也提到过了。我每天都想用这些模型进行创意创作,但信息检索、事实检查这类教育学习场景下的硬性需求实在太过麻烦。一旦下限被突破,必将开启无数新的应用方向。

Brichtova:另外我觉得还应该充分运用模型的上下文窗口,尝试直接向这些大语言模型输入海量内容。比如某些企业会撰写长达数百页的品牌规范指南,详细规定操作规程与禁忌事项。这些规范涉及非常具体的细节,比如颜色、字体等等。当生成内容可以完全遵循这些规范,就将实现前所未有的精准控制效果——而当前的技术还无法做到完全合规。我认为这将极大增强与成熟品牌间的信任感。因此我们单独设计了创意合规审查模型,用于自动筛除违规内容。

模型应该能够自主完成这类操作,实现这项功能。比如它应该建立这样的循环:本轮次生成了相关内容,但第52页指出此内容不应出现。模型随后回溯重试,稍后带着改进后的方案回来。

Oliver Wang:没错,文本模型已经证明了这种多花时间做深度推理的设计能带来多大帮助。这种让大模型进行自我批判的办法确实至关重要,也真正让图像模型的未来变得令人难以置信且激动人心。

原文链接:

https://www.youtube.com/watch?v=I8VUN141MjU

https://www.businessinsider.com/google-gemini-nano-banana-younger-users-app-exec-2025-10