当前位置:首页 > 科技资讯 > 正文

Gemini 3:从编程到视觉生成,AI的新高度

你还记得我们之前热议的Google AI全家桶吗?当时nano banana的热潮正盛,Gemini登顶榜首,让许多人首次尝试使用Gemini 2.5 Pro,并发现这个低调的旗舰模型,在很多情况下表现甚至优于GPT-5。

如今,更强大的Gemini 3已经在Google AI Studio的测试里“提前上线”。

网友们发现,Gemini 3的能力提升显著,能够仅用简单的提示词生成一个网页版的Windows、macOS等操作系统。

大量的测试结果都提到,Gemini 3编写的代码可以直接运行,前端设计也更加成熟,甚至能制作出视频编辑和短视频工具。

这或许是Gemini在图像编辑领域之外,再次超越Claude和GPT-5的重要时刻。

但究竟这是否如GPT-5一样只是营销手段,还是真能改变我们的使用体验?让我们先来看看网友们分享的Gemini 3案例。

轻松生成Windows系统?

如同nano banana在判断生图能力时采用的指标一样,看模型在生成文字时的表现也是关键。

而如何判断一个基础模型的交付能力,编程成了大部分基础模型厂商专攻的方向。Claude在这方面一度表现不错,也因此获得了一定的声誉。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第1张选择Agentic Coding Average(智能体编程任务平均得分)后,模型排行榜显示Claude Sonnet 4.5位于第一名。来源:https://livebench.ai/

近期多个博主在X上爆料,即将推出的Gemini 3在多个编程任务上的真实表现,不仅优于GPT-5,甚至有直接超越Claude的趋势。

Google AI Studio负责人Logan也在X上回复网友,确认了Gemini 3拥有工具调用的能力,即我们常说的智能体。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第2张以前的编程测试大多集中在对逻辑能力的理解、物理测试以及前端能力的审美把握等。

这次放出的部分Gemini 3测试,可以说是一次测试样例的大升级。

X博主chetaslua分享了多个由Gemini 3完成的编程任务。它能直接给我们生成一个macOS的网页电脑,在这个网页里就像是在操作一台云电脑。所有的应用程序都可以打开,点击Safari图标就能进入浏览器并在网页里继续访问。

提示词:设计并创建一个类似macOS操作系统的全功能网络操作系统,从文本编辑器、带Python的终端和代码编辑器开始,并包含一个可玩的游戏,用于文件管理器、绘图、视频编辑器以及所有重要的Windows操作系统预装软件。使用任何库来完成这个任务,但确保我能够将所有内容粘贴到一个单一的HTML文件中,并在Chrome中打开它。使其有趣且高度详细,展示没有人预期的细节。

源代码:https://codepen.io/ChetasLua/pen/yyezLjN

来源:https://x.com/chetaslua/status/1977866953705316571

不仅macOS云电脑能生成,博主还用同样的提示词修改成了Windows、Linux以及云手机等操作系统,开机动画、系统内操作同样能完美还原。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第3张而且,Gemini 3在处理这些编程任务时速度也得到了提升。根据博主在评论区的回复,Gemini 3的推理速度在1-2分钟。

当把同样的提示词交给Claude Sonnet 4.5处理时,网友分享的结果是Claude只是生成了一个页面,所有应用程序都不能点开。我也测试了一下GPT-5的能力,虽然它可以点开某些应用,但是打开之后就没有下一步的处理逻辑了。

还有一个小彩蛋:在网页打开的云电脑里面点击终端输入matrix,我们会看到类似黑客帝国电影海报的流动代码。

除了这几个热门的系统还原测试外,Gemini 3的编程能力还体现在它的前端也有了其他AI模型做不到的进步。最明显的就是AI编程容易出现的渐变紫问题Gemini 3终于摆脱了。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第4张x@Liam06972452的提示词是:为关于LLMs的网站编写完整的HTML、CSS和JavaScript以创建一个令人惊叹、大胆、富有创意和独特的着陆页。

网友们纷纷在评论区说Gemini 3一定有专门和设计师在合作还有人预测Gemini 3将在前端领域像nano banana一样占据主导地位。

不过也有人认为Gemini 3的前端还是有一些问题。尽管它解决了那些讨厌的渐变改变了大多数AI模型长期以来一直在做的同样事情但3.0的前端总是黑色除非明确提示。在我看来黑色比渐变好太多网站的设计就是应该简洁大方。

基于能一句话搓出一个操作系统还有优秀的前端能力Gemini 3还可以生成一个在线的视频编辑器当然也是真的能够剪辑视频。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第5张提示词:创建一个令人惊叹的单一HTML页面视频编辑器它必须能正常工作!让它变得非常棒。

体验地址:https://jsbin.com/yisixokuwi/1

那些做vibe coding一键生成网页应用工具的Lovable、Cursor等可能要考虑默认模型换成Gemini 3了。

视觉生成:nano banana的全面进化

除了编程能力作为Google最强基础模型视觉理解能力同样出色。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第6张通过了六指测试。

来源

能够把一个潦草的手写文档准确提取里面的所有内容。

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第7张能够生成各种各样的城堡测试。

轻松玩玩Gemini 3做的小游戏

最后让它来生成一些小游戏小工具部分释放出的Gemini 3测试案例表现都很不错。

例如可以让Gemini 3为我们创作原创音乐。

制作一个带有Gemini创作的真实配乐的游戏

还有说是由Gemini 3.0 Pro制作的吸血鬼游戏

“卷”无止境:大模型的未来

Gemini 3:从编程到视觉生成,AI的新高度 3 AI编程 视觉生成 大语言模型 第8张总而言之Gemini 3肯定是马上要来了。