「这是前所未有的智能革新。」
尽管比原定发布会时间推迟了近一个小时,但在北京时间 9 月 10 日,xAI 创始人马斯克终于发布了新一代大模型 Grok 4。
从纸面数据上看,Grok 4 已经全面超越了所有竞争对手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等当前顶级大模型,无论是在传统的基准测试、SAT 考试(美国高考),还是各个学科的 GRE 水平测试中。
但相比这些已经有些乏味的传统基准测试,更有趣的是,Grok 4 还参加了被称为「人类最后一场闭卷考试」的 Humanity’s Last Exam(简称 HLE 测试),并超越此前所有模型,实现了最高 44.4% 的准确率。
图/ xAI
马斯克在直播中也指出,Grok 4 比几乎所有学科的所有研究生都更聪明,而至少在学术问题上,也优于所有学科的博士水平,「没有例外。」
这还不是 Grok 4 的全部潜力。按照马斯克的说法,Grok 4 基础模型的第七版将在本月完成,随后将进行后训练 RL(强化学习)等,最终也将拥有出色的视频理解能力和工具调用能力。按照路线图,接下来几个月 xAI 还会推出代码模型、多模型智能体以及视频生成模型。
图/ xAI
此外,他们还提供了一项更高等级的订阅服务——SuperGrok Heavy,能够使用「最强模型」Grok 4 Heavy。
不过在实际演示过程中,Grok 还是会偶尔出现一些低级错误。而就在 Grok 4 发布前几个小时,xAI 首席科学家 Igor Babuschkin 突然宣布了辞职。
从技术视角出发,Grok 4 并不只是一次「常规迭代」。在这场 40 多分钟的发布直播中,xAI 试图传达的信息是:这不仅是一个在挑战人类智能的新模型,还是一个应用潜力巨大的 AI。
马斯克将 Grok 4 称为「在所有学科都超过博士水平」,并不完全是营销夸张。在 AIME25、HMMT25、GPQA 等主流基准测试中,Grok 4 将大模型的成绩进一步推向了极值,其中 Grok 4 Heavy 甚至在 AIME25(美国数学竞赛邀请赛)上拿下了满分。
图/ xAI
但更具标志性的是 ARC-AGI 以及 HLE 测试。前者借由 OpenAI o3 的测试引起了业界重视,主要聚焦 AI 的「学习」能力,而非「技能」,Grok 4 在 v1 版本中超过 o3 实现了 66%的准确率,在最新的 v2 版本中更是大幅领先其他大模型,做到了 15.9%的准确率。
至于 HLE 测试,则代表了人类智能的极限,由全球专家联合提出 2500 个专业问题,涉及数学、生物、计算机科学、化学、物理、工程学以及人类学等等不同学科。所以直接被命名为「人类终极考试」。
图/ xAI
在 Grok 4 之前,排名第一的模型 Gemini 2.5 Pro 准确率为 21.6%,其次是 OpenAI o3 的 20.3%。相比之下,Grok 4 的准确率则提高到了 25.4%,并且在借助工具的完整形态下还能进一步提高到 44.4%。
现场演示中,xAI 就展示了 Grok 4 对 HLE 测试中专家级题目的准确解答。马斯克认为人类中也只有极少人能够准确解答。而类似的问题,还有 2499 个。
除此之外,还有一个基于商业场景模拟的 Vending-Bench(自动售货机基准测试),需要 AI 进行管理库存、联系供应商、设定价格等。从测试结果来看,Grok 4 比 Claude Opus 4 以及真人的运营效率都要高,创造的净值是真人的 5 倍以上。
图/ xAI
如果只看模型本身,Grok 4 的确展示了不容忽视的实力。尤其在这次直播中,Grok 的语音能力也迎来了升级——不仅能够自然地切换语调,还新增了包括英式发音在内的多个声音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗读诗歌。
问题也出现在这里。在交互中,Grok 被要求「唱一首歌」,但却进入了「念诗」状态,用朗读语气念出了歌词。虽然是个小失误,却暴露出语音模型背后对多模态理解尚不稳定的事实——唱歌不只是发音,而是旋律、语调和节奏的协同输出,Grok 显然还没准备好。
图/ xAI
类似的小插曲贯穿整场发布。发布直播原定时间比计划晚了一小时开始,没有任何解释。直播内容虽然丰富,但整体节奏略显仓促,功能展示之间缺乏过渡逻辑。一些演示明显是预先准备好的。这种略显仓促的节奏与前一天高管的离职消息叠加后,难免让人联想到内部的不稳定。
就在发布当天,xAI 首席科学家 Igor Babuschkin 宣布离职。而在更早前,X 公司 CEO Linda Yaccarino 也辞去了职务并留下了一句意味深长的话:「现在,随着 X 与 xAI 一起进入新篇章,最好的事情还在后头。」
图/ xAI
本文由主机测评网于2026-04-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436389.html