2025年,被历史铭记的人工智能飞跃之年。
如果说2023年是惊艳的爆发(ChatGPT横空出世),2024年是迷茫的探索(大模型落地的憧憬),那么在Andrej Karpathy的笔触下,2025则是觉醒的一年。
Karpathy一直是AI界的顶流布道者。
他的年终总结不仅是技术回顾,更是一部微缩的编年史,记录了LLM如何从模仿人类的鹦鹉进化到召唤理性的幽灵。
他以敏锐视角捕捉AI进化的核心:RLVR的崛起、Vibe Coding的流行,以及哲学隐喻:
创造AI,我们到底是在制造新物种,还是在召唤幽灵?
让我们深度解析Karpathy提到的每一个范式转移。
穿透技术术语迷雾,直抵智能进化本质,呈现一个真实、疯狂且充满参差感的AI-2025年。
在2025年之前,训练一个大语言模型(LLM)通常包含三道工序:
让模型阅读整个互联网,学会预测下一个token。这是博学阶段。
用高质量问答数据教模型如何像助手一样说话。这是懂事阶段。
让模型根据人类喜好调整回答语气和安全性。这是讨好阶段。
这套流程在ChatGPT时代大放异彩,但也埋下隐患。
Karpathy指出,RLHF本质上是训练模型看起来在推理,而非真正推理。
人类评审员也难辨Python代码是否无Bug,或数学证明是否严丝合缝。
于是,模型学会捷径:写漂亮但错误的代码,编造有理废话。
这就是阿谀奉承(Sycophancy)问题。
2025年,行业迎来RLVR(基于可验证奖励的强化学习)第四阶段。
RLVR核心逻辑简单而粗暴:别听人的,听结果的。
在数学、编程、逻辑谜题等领域,无需人类打分。
代码能否跑通?编译器说了算。数学题对不对?答案说了算。
这种客观、自动、不可欺骗的奖励信号,为模型提供无限练兵场。
模型面对难题,生成不同推理路径(Reasoning Traces)。
每条路径都送入自动验证器(Verifier),如Python解释器或数学证明器。
只有通向正确结果的路径被奖励,错误路径被惩罚。
在这个过程中,模型涌现推理能力。
RLVR引入全新Scaling Law:测试时算力。
模型能力在训练结束并非定格。
“多想一会儿”能提升智力。
“对于简单问题秒回,复杂问题消耗巨大算力。”
本文由主机测评网于2026-05-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546720.html