当前位置:首页 > 科技资讯 > 正文

Grok 4:AI新王的“高光”与“翻车”

AI 舞台,从不缺少「新王登基」的剧目。接连数月,模型轮番登场,各领风骚。昨天,Grok 4的登场,更是让马斯克直呼「这是地球上最聪明的 AI」。然而,上线前的热度,能否转化为实际应用中的优势?让我们通过网友的实测案例,一探究竟。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第1张

编程:高光与翻车并存

博主 @mckaywrigley 给 Grok 4 Heavy 出了一道编程题。让它用 three.js 创建一个动画,最终排出「你好,世界,我是 Grok」的字样。Grok 仅试了一次,就交出了一份令人惊喜的答卷。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第2张

Grok 4 在 three.js、Blender 等领域的表现有了很大升级。然而,UI 生成仍是短板。网友表示:「它不是最好的设计师,但在逻辑建模和结构控制方面,它确实有一手。」

值得一提的是,Grok 4 Heavy 能够并行调用多个智能体,从机制上保证输出质量。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第3张

博主 @tetsuoai 则让 Grok 4 扮演一名有 15 年经验的 C 语言老程序员,写了个 CLI 工具来分类整理文件夹里的文件。Grok 的输出非常「地道」,细节处理也尽显专业水准。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第4张

当然,Grok 4 也存在一些翻车案例。博主 @karminski3 的经典测试项目——一个 20 个小球在七边形中弹跳的三维物理测试。Grok 跑了三次,两次直接显示语法错误,唯一一次成功运行的版本也仅仅「勉强可用」。

写作:智商在线但「情商」掉线

在 192k 上下文窗口的表现中,Grok 4仅次于 Gemini。在 1k 到 120k 的测试中,Grok 4几乎一路保持高水准,说明它在语义连贯、记忆保持上确实有两把刷子。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第5张

网友让 Grok 4 写一首六行诗,要求全词用 S 开头,涵盖爱情、背叛、复仇、悲剧、英雄主义五大元素。Grok 居然真写出来了,读起来还挺顺。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第6张

然而,在更宏观的短篇小说创意写作基准上,Grok 4拿到的 7.69 分只能算中等水平。

SVG 试炼场 :画图裸考来了

让大模型生成 SVG 图像,可以更好地评估它们的视觉与空间推理水平。Reddit 网友设计了一项任务,让四款模型在无任何工具辅助的情况下画图裸考。

【凭记忆绘制美国地图】

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第7张

第一关是生成美国本土地图轮廓,Grok 4的地理细节略糊,但轮廓逻辑还算完整。

【复刻线条漫画】

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第8张

当被要求将一幅被拆分为三张小图的线条漫画还原为纯 SVG 时,Grok 4 表现拔尖。

可视化:黑洞模拟、欧拉恒公式、哲学自画像

网友 @techartist_ 用 Grok 4编写了一个交互式 3D 黑洞模拟与可视化项目,使用了 threejs 进行渲染。

Grok 4:AI新王的“高光”与“翻车” 4 AI 编程 写作 第9张

@dvorahfr 问 Grok 一个抽象问题:「如果你必须以肉身形式存在,会是什么样子?」

服务器教程性价比服务器云服务器