Grok 4登场：马斯克豪赌最强AI模型

主机测评网
科技资讯
2026-04-16
660

这场竞赛注定无法停歇。

Grok 4：真可谓顶尖之作

Grok 4登场：马斯克豪赌最强AI模型 4 AGI xAI 马斯克第1张

近期，马斯克推出了“全球顶尖AI模型”，有评论直接称其为AGI的里程碑。xAI公司推出了两个版本，分别为Grok 4和Grok 4 Heavy。两者均为推理模型，前者为单代理版本，后者则支持四个代理协同工作。

“Grok 4已达到研究生级别的知识水平，甚至在多数博士项目中表现出色。”直播延迟1小时后，马斯克如此评价Grok最新一代的卓越性能。

除了在SAT、GRE考试中取得近乎完美的成绩，在‘人类终极考试（HLE）’测试中，Grok 4当前得分高于Gemini 2.5 Pro和o3。而Grok 4 Heavy版本更是突破了40%。相较于擅长中文处理的Kimi，Grok 4的多语言支持更全面，尤其在英语和编码混合任务中表现卓越。尽管Kimi速度更快，但Grok 4的深度思考能力使其在科研场景中更为可靠。

Grok 4登场：马斯克豪赌最强AI模型 4 AGI xAI 马斯克第2张

编程与软件工程领域：在SWE-Bench基准测试中，Grok 4表现优异，得分约60%以上，高于GPT-4.5的54.6%和Gemini 2.5 Pro的类似分数。虽然Claude 4达到了72.7%，但Grok 4在代码分析和bug修复方面效率更高，识别准确率高达89%。与Kimi相比，Grok 4的工具原生集成使其编程自动化更为流畅，更适合开发者使用。

xAI团队在直播中透露，Grok 4的训练量是Grok 2的100倍，强化学习（RL）阶段投入的算力是市场上其他模型的10倍以上。订阅费用方面，Grok 4为30美元/月，更强大的Grok 4 Heavy版本为300美元/月，而Grok 3保持免费开放。

马斯克表示，Grok 4的目标是成为‘追求真相的AI’。他设想通过该模型与类人机器人结合，在今年年底或明年发现新技术，甚至新物理定律。‘这既令人兴奋又紧张，我希望自己能见证它的诞生。’马斯克说道。

然而，从博主的评价来看，反馈呈现两极分化。有网友认为多代理投票虽然准确，但既耗时又耗资。也有观点认为目前阶段AI的高价代表高质量，如DeepseeK R1在后续推广后可能实现降低成本，眼下关键是推出更强大的AI以占领市场。

xAI投入巨大，维持不易

01 马斯克的专业：烧钱之道

曾有说法称，创业者若无10亿美元不应涉足大模型创业。国内外一些创业者曾不服此论，但几年后，‘六小龙’的说法渐趋冷门，国外除OpenAI就是大厂的模型。而今，这一门槛已被马斯克提升至‘月销10亿美元’。

上月外媒披露，xAI因研发尖端AI模型、构建数据中心及采购专用芯片，每月支出高达10亿美元。财务预测显示：2024年总支出预计达130亿美元，而营收仅为5亿美元；至2026年，营收或增至20亿美元，但仍难以弥补成本缺口。

Grok 4登场：马斯克豪赌最强AI模型 4 AGI xAI 马斯克第3张

xAI的财务需求主要源于其激进的硬件战略。与依赖租赁算力的竞争对手不同，xAI坚持自建基础设施。马斯克甚至宣布计划打造一台配备100万个英伟达Blackwell GPU的超级计算机，预计耗资50亿至625亿美元（约合人民币4500亿元），有望成为史上最昂贵的AI基础设施项目。

有分析师认为，马斯克采取‘烧钱换领先’的战略，试图通过大规模融资、硬件投资和快速迭代在AI军备竞赛中超越OpenAI、Anthropic和Google DeepMind。然而能否在资金耗尽前实现技术突破仍是未知数。

除了硬件成本高昂外，xAI在数据训练方面也与众不同，采用合成数据训练法，先用AI生产数据再用于模型训练，成本远高于同行。其训练数据集总量约4万亿tokens，使用新MinHash-GPU管道去重后近似重复率<1%。

尽管合成数据优势显著，但也存在幻觉过高的问题。数据反复利用后可能出现‘以讹传讹’导致更大错误。此外，有用户发现Grok在回答问题时会优先考虑马斯克的观点。大量X用户发布的实测结果也显示确实存在这一倾向。这可能引发对平台中立性的质疑。

此外还需注意的是xAI承担了马斯克收购推特时的银行债务。年初xAI以全股票交易方式收购推特估值达330亿美元并承担了推特之前的债务。

马斯克已置换部分银行高息债并希望通过推高推特估值缓解资金压力。有报道称xAI即将启动第三次大规模融资目标估值直指2000亿美元。

据悉此次融资谈判已进入初步阶段最快将于下月启动。这将是xAI不到两个月内的第三次大规模融资：今年6月通过二级股票发行筹集300亿美元；7月通过贷款和现金投资获得100亿美元资金。

从更大层面来看马斯克对标的是OpenAI。既然OpenAI都能估值3000亿美元那么xAI估值2000亿美元只是起点。

02 长期领先挑战重重

上半年大模型发展整体从‘规模竞赛’转向‘效率与场景深耕’涌现出不少在架构创新、训练效率及多模态能力方面表现突出的模型。如Claude 4代码生成能力领先行业支持20万token输入成为开发者首选；Gemini 2.5 Pro拥有业内最长处理能力最高支持200万token上下文；DeepSeek R1则让低成本高质量成为可能。

今年2月发布的Grok 3虽然跑分优异但最终印象仅停留于大尺度聊天内容并未如马斯克所愿推动用户大幅增长。因此马斯克需要更大的动作来证明xAI并非昙花一现。

尽管马斯克在推特上为Grok模型多次预热但Grok 3.5模型最终跳票一度引发对模型能力的质疑。为挽回外界信任马斯克选择跳过Grok 3.5直接发布更高版本的迭代模型。

今年新发布的模型几乎都在一项或多项跑分上超越GPT模型这背后原因在于现如今的模型差异只有数量级没有指数级。

马化腾曾表示AI技术和应用是一条漫长赛道公司间的竞争和发展更像马拉松而非短跑。

Grok 4登场：马斯克豪赌最强AI模型 4 AGI xAI 马斯克第4张