发布仅72小时,Grok 4便在硅谷掀起热潮!全网首次测试即惊艳众人,仅需2分钟即可部署一款游戏,一句指令即生成完整动画。恰逢xAI成立两周年来临之际,马斯克SpaceX宣布将投入20亿美元,计划将模型送往火星。
Grok 4在发布仅仅12小时后,便获得了AI开发者Mckay Wrigley的极力推荐,称其为“强大得惊人”!
在一次请求中,Grok 4 Heavy就生成了完整动画,从人群行走到鸟瞰镜头无缝切换,展现出惊人的理解与执行力,相比之下,其他模型显得逊色不少。
AI初创Replit的matt palme则展示了2分钟内部署了一款游戏的实力。
通过Grok 4编写的代码,网友Techartist利用Three.js及GLSL着色器,成功实现了黑洞的交互式3D模拟与可视化。
在事件视界、星场和吸积盘方面,其呈现的细节令人惊叹,效果非凡!
经过20万块GPU训练的Grok 4,实力不容小觑!
发布会后,Grok 4的官方技术报告也得以公开。
作为全球最聪明的AI模型,xAI团队认为Grok 4已具备理解宇宙的基础。
这一成就的背后,是强化学习(RL)技术不断扩展与提升的结果。
众所周知,Grok 4的算力是Grok 2的100倍,在由20块GPU组成的Colossus集群上完成了RL训练。
此前,xAI团队在Grok 3上实现了将下一个token预训练扩展到前所未有的规模。
在开发Grok 3 Reasoning的过程中,团队证明了大幅扩展强化学习训练规模的可能性。
如今,Grok 4的成功发布,正是团队正确方向的证明。
整个技术栈的创新使得Grok 4的训练计算效率提升了6倍。
同时,研究团队还进行了大规模的数据收集工作,将可用于验证的训练数据从数学、编程扩展到更多领域。
此外,Grok 4通过RL学会了使用原生工具,在代码解释器、网页浏览工具的辅助下,大幅提升了思考能力。
在“人类最后考试”(HLE)中,Grok 4利用工具的得分远超现有最佳水平(SOTA),创下50.7%的新纪录。
Grok 4 Heavy作为多智能体版模型,在Scaling测试中性能大幅提升。
一个模型能同时考虑多种假设,最终汇总出可靠准确的答案。
在多项基准测试中,Grok 4系模型均刷新了SOTA。
特别是在ARC-AGI V2测试中,它以15.9%的成绩领先所有闭源顶尖模型,是Claude Opus 4的两倍。
在智能体Vending-Bench基准测试中,Grok 4的赚钱能力遥遥领先,远超所有模型和人类。
尽管在IQ方面相对较弱,但在门萨智商测试中取得了136分,仅次于Claude 4。
在第三方编程基准Aider测试中位列第四,正确率为79.6%,成本约为60美金。
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436799.html