Gemini 3引领AI新时代：从聊天机器人到数字同事

主机测评网
科技资讯
2026-05-12
695

Ethan Mollick指出，Gemini 3标志着“代理模型”的崛起，尽管它并非完美，但其错误更接近于人类在判断或意图理解上的偏差，而非无中生有的“幻觉”。随着AI能力的增强，人机协作正在从“人类修复AI错误”转变为“人类指导AI工作”。

谷歌最新发布的Gemini 3模型无疑是人工智能领域的一个关键里程碑。

华尔街见闻在18日提到，谷歌正式发布了其迄今为止最强大的人工智能（AI）模型Gemini 3，并在发布首日就同步上线于谷歌搜索、Gemini应用程序App及多个开发者平台，并在多个盈利产品中投入使用。

谷歌高管在新闻发布会上强调，在衡量人工智能模型性能的多个行业排行榜上，Gemini 3均名列前茅。谷歌AI研究实验室DeepMind的CEO Demis Hassabis表示，Gemini 3不仅是“世界上最好的多模态理解模型”，也是公司迄今为止最强大的智能体和代码生成模型。

根据沃顿商学院教授Ethan Mollick的深度评测，Gemini 3及其配套工具“Antigravity”展现了惊人的“代理”能力。与三年前发布的GPT-3模型相比，AI已不仅仅是生成文本，而是能够编写代码、构建可交互的应用、执行多步骤任务。

Mollick指出，这种从“描述”到“行动”的飞跃，意味着AI正从一个对话伙伴转变为一个可以接入计算机并完成实际工作的通用工具。

Mollick总结道，我们正迈向“数字同事时代”，而非仅仅停留在“聊天机器人时代”。尽管Gemini 3并非完美，但其错误更接近于人类在判断或意图理解上的偏差。

这表明，人机协作的模式正在转变，人类将不再仅仅负责修正AI的低级错误，而是为其提供高阶的战略指引和方向。这或许自ChatGPT发布以来，是AI领域发生的最大变革。

以下为Ethan Mollick的测评文章摘录：

三年，从 GPT-3 到 Gemini 3

从聊天机器人到智能体

Ethan Mollick

2025 年 11 月 19 日

我持续测试了谷歌新发布的Gemini 3模型。它表现非凡。与其列举基准数字，不如让AI亲自展示这三年我们取得了多大的进步——我就是这样做的。

自ChatGPT发布至今已近三年。在其上线前几天，我在这个平台上写了第一篇关于OpenAI早期GPT-3的文章。随后ChatGPT问世，我立即又写了一篇：“我通常对技术预测持谨慎态度，但这次它将比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作，现在第一批被AI颠覆的可能是更偏分析、创意、写作与沟通的岗位。”

现在看来，我的预测是正确的。

Gemini 3引领AI新时代：从聊天机器人到数字同事 3 AI模型人机协作数字同事第1张

（插图：三年前我用GPT-3.5后的首篇文章截图）

我可以口头解释初代ChatGPT与今天谷歌发布的Gemini 3之间的差距，但没必要。我展示了上面的截图给Gemini 3看，并写了一句：

我：“做点东西，让大家看看AI这三年的进步。”

Gemini：“当然可以。你这条推文来自2022年11月——现代AI热潮的前夜。当时最大的‘亮点’是AI能写一段通顺的文字或给‘糖果动力超光速飞船逃离水獭’这样的题目写首小诗。

为了展示进步，我不仅用文字描述，还直接为你制作了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。”

Gemini 3引领AI新时代：从聊天机器人到数字同事 3 AI模型人机协作数字同事第2张

它真的做了一个小游戏：我得靠糖果能量摆脱追杀的水獭，途中穿插小诗和各种搞笑更新。读这篇博客的人可能早就知道AI能写代码，但更有趣的是——当你不再把Gemini 3当成“聊天框”，而当成“别的东西”时，它还能做什么。

01 会写代码的工具

不只是“写代码的工具”

伴随Gemini 3，谷歌还发布了Antigravity。程序员一看就明白：它跟Claude Code、OpenAI Codex类似，给你电脑权限，能在指导下自主写程序。

如果你不是程序员，可能会忽略它——我觉得这是错误的。“会写代码”不等于“当程序员”，而是“能完成任何在电脑上才能完成的活儿”。于是，这些工具的本质被彻底改写。

Gemini 3擅长写代码，这一点即使你不自认“程序员”也与你息息相关。AI界的一个底层观点是：你在电脑上做的任何事归根到底都是代码；只要AI能写代码，它就能建仪表盘、扒网站、做PPT、读文件……这让“会写代码的智能体”成为通用工具。Antigravity将这一理念产品化：给我一个“收件箱”，我把任务派给智能体，它们需要批准或帮助时会通知我。

Gemini 3引领AI新时代：从聊天机器人到数字同事 3 AI模型人机协作数字同事第3张

（插图：四个智能体同时运行，一个在干活，一个等我回应）

我跟它们不用代码，用英语；它们用代码替我干活。Gemini 3擅长做计划，知道该干什么、何时请示。比如我把历年newsletter的稿子全放在一个文件夹里，然后吩咐：

“给我做一个漂亮的网页汇总我对AI的所有预测，再上网搜搜哪些说对了哪些说错了。”

它读完所有文件、运行代码、先递给我一份可编辑的方案——这是它第一次开口问我时理解之准确让我惊讶。我稍作修改后让它继续。

Gemini 3引领AI新时代：从聊天机器人到数字同事 3 AI模型人机协作数字同事第4张

之后它搜索网页、建站、接管浏览器验证效果，再把成品打包给我。我像对真人同事一样提修改意见，它继续迭代。

Gemini 3引领AI新时代：从聊天机器人到数字同事 3 AI模型人机协作数字同事第5张

它并非完美——智能体还未达到那个地步。我没发现幻觉但确实有地方需要我纠正。不过那些错误更像是“人类同事会有的判断偏差或误解”，而非传统AI的离谱幻觉。重要的是我感觉自己能够掌控人工智能的决策因为人工智能会定期检查并确认其工作而且我的操作过程清晰可见。这种感觉更像是管理一位队友而不是通过聊天界面与人工智能进行沟通。