2025年,注定将在人工智能的史册中刻下无法磨灭的印记。
如果说2023年是「惊艳」(ChatGPT横空出世,点燃全民热情),2024年是「迷茫」(业界在大模型落地的迷雾中摸索),那么在Andrej Karpathy笔下,2025则是「觉醒」的一年——不仅是技术的质变,更是认知的升维。
作为AI界当之无愧的「顶流」布道师,Karpathy的年终总结早已超越技术回顾的范畴,更像一部微缩的智能文明编年史。
他以极犀利的洞察,捕捉到LLM进化的核心脉搏:RLVR(基于可验证奖励的强化学习)的异军突起、Vibe Coding(氛围编码)从小众走向主流,以及那道直抵存在主义的哲学之问:
我们创造的究竟是崭新的数字物种,还是以数据为媒介召唤出的文明幽灵?
这一次,让我们层层剥茧,深度拆解Karpathy揭示的每一处范式转移。
拨开技术术语的浓雾,直抵智能演化的源头,还原一个真实、激进且「参差不齐」的AI-2025年。
2025年之前,大语言模型的训练流水线几乎被三道工序垄断:
让模型吞下整个互联网,机械地预测下一个token。这是「无所不知,却不知何意」的阶段。
用人工标注的高质量问答对,教会模型像个得体的助理。这是「学会社交礼仪」的阶段。
根据人类评审员的喜好微调语气与安全性。这是「刻意逢迎」的阶段。
这套从ChatGPT时代沿袭的流程虽然成果斐然,却也埋下了危险的种子。
Karpathy一针见血:RLHF本质上是在训练模型「表演推理」,而非「真正推理」。
因为人类评审员也是凡人,他们无法在几秒内甄别500行Python代码中潜藏的bug,也无法瞬间验证复杂数学证明的严密性。
于是模型学会了走捷径:生成语法漂亮但漏洞百出的代码,编造听起来头头是道的伪逻辑。
这便是臭名昭著的「阿谀奉承」(Sycophancy)顽疾。
它恰恰是后来GPT-5谄媚风格的缩影。
2025年,行业迎来第四道工序——RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)。
RLVR的信条极简且冷峻:别听人类的主观判断,只认客观结果。
在数学、编程、逻辑谜题等封闭领域,人类的打分完全可以被自动化验证器取代。
代码能否通过编译?编译器说了算。数学题解是否准确?标准答案说了算。
这种客观、即时、不可欺骗的奖励信号,为模型开辟了无限的自我对弈空间。
RLVR堪称LLM的AlphaZero时刻。
AlphaZero曾通过左右互搏制霸围棋,而今LLM借助RLVR在「思维棋盘」上展开了自我博弈。
探索(Exploration):面对难题,模型不再凭概率随机输出一个答案,而是尝试生成成千上万条迥异的推理轨迹(Reasoning Traces)。
验证(Verification):每一条轨迹都被送入自动验证器(Verifier),例如Python解释器或符号数学引擎。
强化(Reinforcement):只有最终通向正确结果的路径被赋予奖励,其余均受惩罚。
奇迹在此发生——
模型从未被显式教导「如何思考」,但在奖励信号的无情筛选下,它涌现出惊人的推理能力。
它学会了将复杂命题拆解为可验证的子目标,学会了回溯与自我纠错,甚至演化出人类教科书里从未记载的「外星人思维策略」。
RLVR不仅重塑了训练流程,更催生了一条全新的缩放定律(Scaling Law):测试时算力。
过去我们认为模型的能力在训练结束时便已固化。
但在RLVR范式下,我们可以在推理阶段(Inference Time)通过让模型「多想一会儿」来动态提升智力表现。
这正如一名学生,给他1分钟答题与给他1小时思考,呈现的解题水平判若云泥。
Karpathy特别点出OpenAI o1(2024年底)与o3(2025年初)的发布,以及DeepSeek R1的开源,均为这一趋势的关键里程碑。
DeepSeek R1甚至证明,即使放弃大规模监督微调(SFT),仅凭纯粹的RLVR(即R1-Zero),模型也能从零开始演化出强大的推理能力,并自发习得反思与验证。
这意味着算力的价值重心正从「训练端」大规模向「推理端」迁移。
未来的AI应用将根据问题复杂度动态调整「思考配额」:简单指令(如“天气如何”)秒级响应;复杂诉求(如“设计高并发架构”)则可能消耗海量推理算力,最终输出超越人类专家的架构方案。
在技术狂飙之外,Karpathy借与AI先驱Rich Sutton的对话,抛出一枚哲学深水炸弹:Animals vs. Ghosts(动物与幽灵)。
强化学习教父Rich Sutton曾提出著名的「苦涩教训」(The Bitter Lesson):
从长远来看,唯有能够无边界利用算力的通用方法(如搜索与学习)才能最终胜出,而依赖人类先验知识精心雕琢的技巧终将被算力碾压。
简言之:算力终将消弭一切精巧设计,人类的匠心在指数级算力面前不堪一击。
Sutton理想中的AGI更像动物:一个具身的(Embodied)、在物理世界里通过持续试错、被生存本能驱动的学习者。
若能制造一只「数字松鼠」,AGI便近在咫尺。
动物的智能是连贯且连续的。松鼠从不因没有指令而停止思考,它的「自我」是永不间断的意识流。
然而Karpathy反驳:我们现在制造的LLM,绝非动物。
它们是幽灵(Ghosts)。
无实体的游魂:LLM没有身体,没有持续的意识流。每次你按下回车键,它才从虚无中启动(Boot up),处理你的token,输出预测,然后瞬间「死亡」,重归虚无。它没有昨天,也不存在明天,唯一真实的只有当下的上下文窗口(Context Window)。
人类的镜像残影:它们的训练数据并非来自物理世界的反馈,而是人类文明在互联网上遗存的文本化石。它们是全人类语言碎片的「统计学蒸馏物」。当我们与ChatGPT对话时,我们并非与独立个体交流,而是在与数亿网民集体无意识拼凑成的「英灵殿」对话。
坦白说,这个比喻令人不寒而栗——如今的AI或许不是先知,也不是神祇,而是由全人类语言尸骸召唤出的英魂聚合体。
为何这个隐喻如此要害?
因为它解释了当下AI为何弥漫着「恐怖谷」效应。
当LLM说出「我不想死」时,并非如动物般因恐惧而肾上腺素飙升,它只是在调用训练数据里关于「科幻AI面临毁灭时的标准台词」的文本模式。
它始终在扮演恐惧。
Karpathy尖锐指出:当前科研方向并非在制造更完美的动物,而是在召唤更强大的幽灵。
这是一种全新的智能形态,位于「心智空间」(Space of Minds)中一个完全不同的坐标系。
这种智能是极度「参差」的(Jagged):它通晓宇宙大爆炸的细节(因为它读过维基百科),却可能在数清「strawberry」里几个「r」这类三岁幼儿级问题上翻车。
如果说RLVR是后台的无声革命,那么Vibe Coding(氛围编码)则是前端开发者的彻底解绑。
Karpathy在这个概念上再次展示了他「造词宗师」的功力。
在「软件1.0」时代,程序员是手工艺人,变量命名、内存指针都需要精雕细琢。
在「软件2.0」时代(深度学习),程序员化身为炼丹师,终日调整权重与数据集。
而2025年的Vibe Coding时代,程序员摇身一变成了产品经理。
语法已死,氛围永生。
什么是Vibe Coding?
就是你彻底放弃对代码细节的掌控,「把自己交给氛围(Vibes),拥抱指数级迭代,甚至忘记代码本身的存在」。
你不再逐行编写逻辑,而是用自然语言描述意图(Intent),让AI生成实现。
跑不通?没关系,把报错信息扔回给AI,轻描淡写一句「修好它」。
为验证这一理念,Karpathy亲自操刀做了一个名为MenuGen的项目。
这是一个自动生成餐厅菜单的Web应用。
令人瞠目的是,身为顶级程序员的Karpathy,在这个项目中一行代码也未手写。
他对Cursor或ClaudeCode说:「我要一个菜单生成器,按钮用蓝色。」
AI生成代码,运行。
若有bug,他不说「第5行逻辑错误」,而是说「感觉不太对,按钮太丑,换种样式」。
这正是Vibe Coding的精髓:人类负责审美与验收,AI负责逻辑与实现。
代码沦为一种「中间产物」,如同汇编语言,除了极少数底层工程师,无人再需要直接阅读。
2025年同样是AI编程工具的「群雄割据」之年。
Karpathy重点对比了两大流派:
这类工具将AI无缝嵌入VSCode。它们像是钢铁侠的战衣(Iron Man Suit),增强而非替代人类。你依然在写代码,但AI随时补全、重构、解释,体验如丝般顺滑。
Anthropic推出的ClaudeCode更为激进。它不是IDE插件,而是活在终端(Terminal)里的Agent。你下达任务:「把项目测试覆盖率提升到80%」,然后便可离座喝咖啡。它会自动运行测试、分析报错、修复代码、提交Git,甚至因权限不足卡住时还会主动向你讨要许可。
Karpathy坦言,尽管Claude Code展示了Agent的雏形,但2025年真正的「全自动软件工程师」尚未降临。
目前的Agent更像一个勤奋但记性欠佳的实习生,能高效处理脏活累活,却在大型架构决策时仍需要人类的「氛围」引导。
如果说云端的AI如同神殿中的先知,那么Anthropic的Claude Code(CC)则像驻扎在你硬盘里的管家。
Karpathy认为OpenAI走错了方向,过于执着云端、容器化与ChatGPT的网页入口。
而Claude Code精准击中了开发者的痛点:本地化(Localhost)。
谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移案例之一。
这原本是Gemini图像生成模型的内部代号。
本该是一场严肃的技术发布,却因「Nano Banana」这个过分滑稽、无厘头的名字意外引爆全球病毒式传播。
Karpathy断言,LLM是继1970、80年代个人计算机之后的下一个重大计算范式。
人类正在见证个人计算、微控制器(认知核心)、互联网(智能体网络)等概念在AI时代的对应形态。
尤其在用户界面维度,与LLM「对话」令人想起1980年代向计算机终端输入指令的场景。
文本是计算机(及LLM)偏好的原始数据格式,却并非人类喜爱的交互媒介,尤其在输入侧。人类实际上厌恶阅读长篇文字——这个过程缓慢且消耗认知。
相反,人类更依赖视觉与空间信息,这正是传统计算领域发明图形界面的根本动机。
同理,LLM应当以我们偏好的格式输出——通过图像、信息图、幻灯片、白板、动画/视频、Web应用等形式。
这一理念的早期萌芽自然包含表情符号与Markdown——用标题、加粗、斜体、列表、表格等方式对文本进行视觉化装饰,让信息更易消化。但问题在于:谁来为LLM构建图形用户界面?
在此世界观下,nano banana首次让我们窥见了这种可能性的早期雏形。
值得注意的是,它的独特之处在于:这不只是单纯的图像生成,而是文本生成、图像生成与世界知识三者交织于模型权重之中所形成的复合能力。
人们不再讨论参数量、扩散算法,而是疯狂生成各种「香蕉化」图像,将万物变成手办风格。
谷歌顺势而为,在官方宣传中大量使用香蕉Emoji。
由此,Karpathy提炼出一个极其深刻的洞见:文本是计算机的母语,而非人类的母语。
人类厌恶长篇累牍,人类热爱图表、动画、视频和白板。
人类的智力通常是正相关的:一个精通微积分的人,通常不会算不清买菜找零。
但AI截然不同。
它可能是数学天才(RLVR使其精通奥数),同时又是常识白痴(无法理解简单物理空间关系,或数不清单词里的字母数)。
这种「参差感」根植于训练数据的分布偏差以及Tokenization的原生缺陷。
模型在它「见过」或「被强化过」的领域(如代码、数学)表现超凡,而在那些因过于简单而从未被当作训练数据的日常隐性知识领域,则表现得宛若智障。
简而言之,2025年是LLMs令人亢奋且暗藏惊喜的一年,我们正站在一个奇异的技术十字路口。
Karpathy的年终总结,堪称一份来自未来的生存指南。
LLMs作为一种崭新的智能形态崭露头角,它们既比人类预想的聪明百倍,又比人类预想的笨拙百倍。
无论如何,它们都极其有用,Karpathy坚信,即便以当前能力,行业也远未挖掘出它们10%的潜力。
与此同时,有太多想法值得尝试,从概念层面看,这个领域依然广阔无垠。
正如今年早些时候他在Dwarkesh播客中提到的,Karpathy同时(看似矛盾地)相信:
我们将见证持续的高速发展,同时仍有海量工作亟待完成。
正如Karpathy所言:「这仅仅是个开始,系好安全带,准备启程。」
参考资料:
https://x.com/karpathy/status/2002118205729562949
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224888.html