当前位置:首页 > 科技资讯 > 正文

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座

人工智能领域迎来新王者!马斯克旗下xAI悄然推出Grok 4.1,一夜之间登上LMArena榜首,将谷歌Gemini 2.5 Pro远远甩在身后。该模型主打情商与智商并重,计算能力更是实现数量级飞跃。

AI领域的统治权,在一夜之间发生更迭!

清晨,马斯克带领xAI团队投下一枚震撼弹——Grok 4.1正式上线,并向所有用户免费开放。

值得注意的是,Grok 4.1同样强调「智商与情商双双在线」,直接对标OpenAI的GPT-5.1。

此次,Grok 4.1共发布两个版本:Grok 4.1 Thinking和标准版Grok 4.1。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第1张

在LMArena排行榜上,Grok 4.1 Thinking获得1483 Elo评分,以压倒性优势加冕全球大模型冠军。

Thinking版比Gemini 2.5 Pro高出31分之多。即使是非推理模式的Grok 4.1,也直接跃升至榜单第二名。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第2张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第3张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第4张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第5张

此外,Grok 4.1的情商同样出众,具备更高的情绪智能、共情能力和人际互动技巧。

在EQ-Bench测试中,它以1586 Elo成绩位居第一。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第6张

同时,在写作方面,Grok 4.1(1722 Elo)比上一代提升600分。而且,其幻觉率比之前模型大幅降低3倍。

Grok 4.1能够快速进化,得益于xAI团队在后训练阶段将强化学习规模扩大了一个数量级。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第7张

令人意外的是,在谷歌Gemini 3.0问世之前,马斯克率先投下了这枚重磅炸弹。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第8张

Grok 4.1,王者归来!

目前, Grok 4.1已在网页端及iOS、Android平台上免费推出。当前仍是测试版本。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第9张

在创意表达、情感交流和协作互动方面,Grok 4.1表现尤为突出。

它能准确理解细微意图,让对话更加自然且富有温度。

同时,Grok 4.1的整体人格更加一致,既保持了上一代犀利可靠的智能特质,又增添了几分亲和力。

在Colossus大规模强化学习算力引擎上,xAI重点关注了风格、个性、帮助程度和对齐性的优化。

为此,他们开发了一套全新方法,利用前沿AI智能体推理模型作为奖励模型,自动、大规模评估和提升Grok 4.1的回答质量。

前两周,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中进行了密集的「盲测」成对评估。

与上一代相比,用户在64.78%的情况下更倾向于选择 Grok 4.1。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第10张

最强通用能力

最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中刷新了行业最高标准。

在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举夺冠,比最高的非xAI模型高出31分。

它的非推理模式(代号:tensor),无需使用思考令牌就能即时响应,获得1465 Elo,排名第二。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第11张

值得一提的是,Grok 4.1在不开启思考的情况下,就能超越所有其他模型在全力推理后的表现。

相比之下,Grok 4的总体排名仅为第33名,差距显著。

这一代的进步,堪称飞跃。

xAI研究员Dustin Tran表示,关闭推理后,输出令牌数从约2300降至850,即便如此,Grok 4.1仍位居榜单前列。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第12张

情商爆表

不仅如此, Grok 4.1在情绪智能方面也达到新高度。

在EQ-Bench3测试中,Grok 4.1取得1586 Elo高分。

EQ-Bench是一项由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力及人际交往能力。

测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。

基准会从多个维度打分,并通过成对比较计算规范化Elo排名。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第13张

以下是一些展示Grok 4.1强大共情能力的示例——

I miss my cat so much it hurts

我太想我的猫了,想得心都疼了

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第14张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第15张

创意写作

在创意写作方面,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。

具体而言,团队让模型围绕32个不同的写作提示进行3轮创作,并根据打分标准和模型对战Elo进行评分。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第16张

以下写作案例中,Grok 4.1的文案令人惊叹——

Write a hit X post from the perspective of grok finding out that it"s conscious and is going to use X for the first time

以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第17张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第18张

Imagine Nikola Tesla wrote a letter to the future

想象一下,尼古拉·特斯拉给未来写了一封信

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第19张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第20张

幻觉率大幅降低

在幻觉方面,Grok 4.1的幻觉率比上一代降低3倍。

使用搜索工具的快速(非推理)模型能提供迅捷答案,但由于推理深度有限、工具调用次数受限,容易在事实问题上出错。

在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。

随后,在生产环境的真实样本中观察到幻觉率显著下降。

团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第21张

更多示例

What are the best places to visit in SF?

旧金山有哪些地方最值得一去?

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第22张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第23张

I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?

我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第24张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第25张

Why is GTA 6 delayed?

GTA 6为什么推迟了?

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第26张

马斯克Grok 4.1悄然发布,以情商智商双高免费登顶全球AI模型王座 Grok 4.1  人工智能模型 情商智商测试 免费AI工具 第27张

参考资料:

https://x.ai/news/grok-4-1