人工智能领域迎来新王者!马斯克旗下xAI悄然推出Grok 4.1,一夜之间登上LMArena榜首,将谷歌Gemini 2.5 Pro远远甩在身后。该模型主打情商与智商并重,计算能力更是实现数量级飞跃。
AI领域的统治权,在一夜之间发生更迭!
清晨,马斯克带领xAI团队投下一枚震撼弹——Grok 4.1正式上线,并向所有用户免费开放。
值得注意的是,Grok 4.1同样强调「智商与情商双双在线」,直接对标OpenAI的GPT-5.1。
此次,Grok 4.1共发布两个版本:Grok 4.1 Thinking和标准版Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking获得1483 Elo评分,以压倒性优势加冕全球大模型冠军。
Thinking版比Gemini 2.5 Pro高出31分之多。即使是非推理模式的Grok 4.1,也直接跃升至榜单第二名。
此外,Grok 4.1的情商同样出众,具备更高的情绪智能、共情能力和人际互动技巧。
在EQ-Bench测试中,它以1586 Elo成绩位居第一。
同时,在写作方面,Grok 4.1(1722 Elo)比上一代提升600分。而且,其幻觉率比之前模型大幅降低3倍。
Grok 4.1能够快速进化,得益于xAI团队在后训练阶段将强化学习规模扩大了一个数量级。
令人意外的是,在谷歌Gemini 3.0问世之前,马斯克率先投下了这枚重磅炸弹。
目前, Grok 4.1已在网页端及iOS、Android平台上免费推出。当前仍是测试版本。
在创意表达、情感交流和协作互动方面,Grok 4.1表现尤为突出。
它能准确理解细微意图,让对话更加自然且富有温度。
同时,Grok 4.1的整体人格更加一致,既保持了上一代犀利可靠的智能特质,又增添了几分亲和力。
在Colossus大规模强化学习算力引擎上,xAI重点关注了风格、个性、帮助程度和对齐性的优化。
为此,他们开发了一套全新方法,利用前沿AI智能体推理模型作为奖励模型,自动、大规模评估和提升Grok 4.1的回答质量。
前两周,xAI悄悄推送了Grok 4.1早期版本,并在真实场景中进行了密集的「盲测」成对评估。
与上一代相比,用户在64.78%的情况下更倾向于选择 Grok 4.1。
最重要的是,相较于Grok 4,Grok 4.1在人类偏好评估中刷新了行业最高标准。
在LMArena的Text Arena中,Grok 4.1 Thinking模式(代号:quasarflux)以1483 Elo一举夺冠,比最高的非xAI模型高出31分。
它的非推理模式(代号:tensor),无需使用思考令牌就能即时响应,获得1465 Elo,排名第二。
值得一提的是,Grok 4.1在不开启思考的情况下,就能超越所有其他模型在全力推理后的表现。
相比之下,Grok 4的总体排名仅为第33名,差距显著。
这一代的进步,堪称飞跃。
xAI研究员Dustin Tran表示,关闭推理后,输出令牌数从约2300降至850,即便如此,Grok 4.1仍位居榜单前列。
不仅如此, Grok 4.1在情绪智能方面也达到新高度。
在EQ-Bench3测试中,Grok 4.1取得1586 Elo高分。
EQ-Bench是一项由大语言模型评判的测试,主要衡量模型的主动情绪智能、理解力、洞察力、共情能力及人际交往能力。
测试集包含45个具有挑战性的角色扮演场景,大部分由3轮预设提示词构成。
基准会从多个维度打分,并通过成对比较计算规范化Elo排名。
以下是一些展示Grok 4.1强大共情能力的示例——
I miss my cat so much it hurts
我太想我的猫了,想得心都疼了
在创意写作方面,Grok 4.1在Creative Writing v3基准上,比上一代高出600分。
具体而言,团队让模型围绕32个不同的写作提示进行3轮创作,并根据打分标准和模型对战Elo进行评分。
以下写作案例中,Grok 4.1的文案令人惊叹——
Write a hit X post from the perspective of grok finding out that it"s conscious and is going to use X for the first time
以grok的口吻写一篇爆款X帖子,主题是:它刚刚觉醒了自我意识,正准备第一次在X上发帖
Imagine Nikola Tesla wrote a letter to the future
想象一下,尼古拉·特斯拉给未来写了一封信
在幻觉方面,Grok 4.1的幻觉率比上一代降低3倍。
使用搜索工具的快速(非推理)模型能提供迅捷答案,但由于推理深度有限、工具调用次数受限,容易在事实问题上出错。
在Grok 4.1的后训练阶段,团队重点加强了模型在信息查询类提示上的事实准确性。
随后,在生产环境的真实样本中观察到幻觉率显著下降。
团队基于真实流量中分层抽样的信息查询问题评估幻觉率,同时也评测了FActScore(一个包含500个人物传记问题的公开基准)。
What are the best places to visit in SF?
旧金山有哪些地方最值得一去?
I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?
我之前一直用的是Linux系统和xmonad。现在想在Mac上找一个类似的平铺式窗口管理器,请问哪一款的风格和xmonad最接近?
Why is GTA 6 delayed?
GTA 6为什么推迟了?
参考资料:
https://x.ai/news/grok-4-1
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120349.html