当前位置：首页 > 科技资讯 > 正文

2025年大语言模型年度回顾：从模仿到推理的范式跨越

主机测评网
科技资讯
2026-02-12
728

2025年大语言模型年度回顾：从模仿到推理的范式跨越可验证奖励强化学习锯齿状智能氛围编程大语言模型图形界面第1张

北京时间12月21日，OpenAI创始成员、AI领域领军人物安德烈·卡帕西（Andrej Karpathy）正式发布了备受瞩目的《2025年大语言模型年度回顾》（2025 LLM Year in Review）深度研究报告。这份综述不仅系统梳理了过去一年大语言模型技术的重大突破，更首次明确指出：人工智能的训练哲学正经历从“统计概率模仿”向“结构化逻辑推理”的根本性跃迁。

卡帕西强调，2025年的核心引擎不再是传统的预训练扩张，而是基于可验证奖励的强化学习（RLVR）的全面成熟。该技术通过数学问题、代码生成等具备客观评价标准的任务环境，倒逼模型自动生成人类可读的“推理痕迹”，从而实现复杂问题的逐级拆解与自我修正。卡帕西认为，这种长链条、高计算成本的强化学习范式，已经开始显著挤占预训练的算力份额，并成为大语言模型能力进化的主要增量来源。

除了技术路径的迭代，卡帕西对人工智能的认知本质提出了极具启发性的比喻。他用“召唤幽灵”（Summoning Ghosts）而非“驯化动物”（Evolving/Growing Animals）来描摹当前大语言模型的成长机制。这一视角解释了为何最先进的模型会在专业领域展现专家级水准，却在简单常识上表现出令人费解的脆弱性——即所谓“锯齿状智能”。这种不均衡的能力分布，正是源于优化目标与生物演化路径的根本性差异。

此外，卡帕西详细论述了“氛围编程（Vibe Coding）”如何使非专业用户通过自然语言直接创造软件，彻底颠覆了传统编程的门槛；他也肯定了本地化智能体（如Claude Code）在真实开发环境中的实用价值，并预言大语言模型图形界面（LLM GUI）将成为下一代人机交互的主流形态。他坦言，尽管2025年见证了无数技术奇迹，但人类对新型计算范式的探索仍处于早期阶段，挖掘潜力尚不足10%。

卡帕西的报告揭示了一个既冷静又充满希望的结论：我们正处在从“模拟人类智能”向“构建纯粹机器智能”的历史分界线上。随着RLVR等自我优化机制的普及，2026年的竞争焦点将从单纯的算力堆叠，彻底转向对“如何让机器高效思考”这一逻辑本质的深度求索。

以下为卡帕西年度回顾全文（经语义丰富与结构优化）：

《2025年大语言模型年度回顾》

2025年是大语言模型领域大步跨越且充满变数的一年。以下是我认为值得特别记录、且在某种程度上出人意料的‘范式偏移（Paradigm Shifts）’清单。它们深刻改变了行业景观，并在思维层面带来了极大冲击。

01 基于可验证奖励的强化学习 (RLVR)

在2025年初，所有实验室的大语言模型生产堆栈基本如下：

预训练(Pretraining, 2020年的GPT-2/3) —— 奠定基础语言能力
监督微调(SFT, 2022年的InstructGPT) —— 赋予指令遵循能力
基于人类反馈的强化学习 (RLHF, 2022年) —— 对齐人类偏好

长期以来，这一直是训练生产级大语言模型的稳定且经实践验证的方案。而到了2025年，基于可验证奖励的强化学习脱颖而出，成为该技术组合中事实上的核心新阶段。

通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型，模型会自发形成人类视角下近似“推理”的策略。它们学会将复杂问题拆解为中间计算步骤，掌握多种反复推敲、求解答案的技巧（参见 DeepSeek R1 论文中的相关示例）。

这类策略在以往的技术范式中难以实现，核心原因在于：模型无法预先知晓最优的推理轨迹（Reasoning Traces）或问题修复流程，必须通过针对奖励目标的优化，自主探索出有效解法。

与监督微调、基于人类反馈的强化学习等计算量相对较小的微调阶段不同，可验证奖励强化学习针对客观（不可作弊）奖励函数开展训练，这使其能够支持更长周期的优化过程。

实践证明，可验证奖励强化学习具备极高的“能力/成本比”，甚至占用了原本用于预训练的大量计算资源。因此，2025年大语言模型能力的提升，主要源于各实验室对这一新阶段“存量潜力”的挖掘与释放。

总体来看，这一年的模型参数规模未发生显著变化，但强化学习训练的周期大幅延长。此外，可验证奖励强化学习还带来了全新的调节维度（及相关扩展定律）：通过生成更长的推理轨迹、增加模型“思考时间”，可灵活调控测试阶段的计算量，进而实现能力提升。

OpenAI在2024年底推出的o1模型是可验证奖励强化学习技术的首次公开亮相，而2025年初o3模型的发布才成为明确的拐点。直到这时，人们能直观感受到大语言模型能力的质性飞跃。

02 “幽灵”与“动物”之辩/锯齿状智能

2025年，我（且我认为整个行业）开始从直觉上理解大语言模型智能的“形态本质”（the "shape" of LLM intelligence）。我们面对的并非“逐步进化成长的动物”，而是“被召唤出的幽灵”。

大语言模型技术栈的所有组成部分：神经网络架构、训练数据、训练算法，尤其是优化目标，都与生物智能的演化逻辑截然不同。因此，大语言模型是智能空间中一类全新的实体，若用看待生物的视角解读它们，难免产生认知偏差。

从监督信号的本质来看，人类大脑的神经网络是为了适应部落生存、应对丛林环境而优化的；而大语言模型的神经网络则以模仿人类文本、在数学问题中获取奖励、在LM Arena榜单中获得人类点赞为优化目标。

2025年大语言模型年度回顾：从模仿到推理的范式跨越可验证奖励强化学习锯齿状智能氛围编程大语言模型图形界面第2张

人类智能为蓝色，AI智能为红色

随着可验证奖励的强化学习在可验证领域的普及，大语言模型在这些特定领域的能力会出现“爆发式增长”，整体呈现出有趣的“锯齿状性能特征”：它们既是精通多领域的天才博学家，也可能是充满困惑、存在认知缺陷的“小学生”，甚至可能被一段“越狱指令”诱导，泄露用户数据。

与此相关的是，2025年我对各类基准测试（Benchmarks）彻底失去了兴趣与信任。核心问题在于，基准测试的构建逻辑几乎都基于“可验证环境”，因此极易被可验证奖励的强化学习训练或合成数据生成等方式“攻击”。

在典型的“刷榜”过程中，各实验室必然会在基准测试对应的特征空间附近构建微型训练环境，培育出精准覆盖测试要点的“智能锯齿”。如今，“针对测试集进行定向训练”已成为一种新型技术操作。

03 Cursor与大语言模型应用的新层级

Cursor最引人关注的点（除了其2025年的爆发式增长），在于它清晰揭示了大语言模型应用的一个全新层级，人们开始普遍讨论“某领域的Cursor模式”。

正如我在今年Y Combinator演讲中强调的，像Cursor这样的大语言模型应用，核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑，具体体现在以下方面：

处理“上下文工程” —— 优化提示词设计与上下文窗口管理；
编排多模型调用图 —— 在后台将多个大语言模型调用编排为日益复杂的有向无环图（DAG），精准平衡性能与成本；
定制化人机交互界面 —— 为“人机回圈”（Human-in-the-loop）提供适配特定场景的图形用户界面；
自主权控制滑块 —— 提供可调节的“自主权滑块”，灵活控制AI自主决策的权限范围。

2025 年，行业内围绕这一新应用层的“厚度”展开了大量讨论：大语言模型实验室是否会通吃所有应用场景？还是说垂直领域的大语言模型应用仍有广阔蓝海？

我个人的观点是，大语言模型实验室更倾向于培育“通识能力极强的大学生”式模型，而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环，对这些“大学生”进行针对性组织、微调，最终驱动它们成为特定垂直领域的“专业团队”。

04 Claude Code/驻留在电脑里的AI

Claude Code（CC）的问世，首次令人信服地展现了大语言模型智能体（Agent）的核心能力。它能够以循环方式串联工具使用与推理过程，完成长时间跨度的问题求解。此外，CC最让我瞩目的特点是其本地化运行模式：直接部署在用户电脑中，可访问本地私有环境、数据与上下文。

在我看来，OpenAI早期的代码/智能体探索存在方向偏差。他们侧重于通过ChatGPT编排云端容器，而非直接利用本地环境（localhost）。尽管云端运行的智能体集群看似接近“通用人工智能（AGI）的终局形态”，但在当前AI能力参差不齐、技术渐进式发展的现实背景下，让智能体直接运行在开发者电脑上，显然更具实用价值。

需要明确的是，核心差异并非“AI运算的运行位置”（云端或本地），而是其他关键要素：已启动运行的电脑设备、其预装环境、本地上下文、私有数据、密钥信息、系统配置，以及低延迟的人机交互体验。

Anthropic精准把握了这一优先级，将CC封装为极简、优雅的命令行界面（CLI）形式，彻底重塑了AI的用户认知——它不再是需要主动访问的网站（类似谷歌搜索引擎），而是“栖息”在用户电脑中的智能实体。这标志着一种全新的、独特的AI交互范式正式诞生。

05 氛围编程

2025年，AI突破了关键能力阈值，使得人们仅凭自然英语就能构建各类功能强大的程序，甚至会忽略代码本身的存在。有趣的是，我最初在随笔推特中创造“氛围编程”这一概念时，完全未预料到它会产生如此广泛的影响。

在氛围编程时代，编程不再是高训练门槛的专业人士专属技能，而是普通人也能掌握的通用能力。这印证了我此前在《权力归于人民》（Power to the people）中的观点：大语言模型正在逆转技术普及的传统逻辑。

与以往所有技术不同，普通人从大语言模型中获得的收益，远超过专业人士、企业与政府。氛围编程不仅赋予普通人技术创作权，也让专业开发者能够高效实现原本因技术门槛或成本问题不会尝试的软件项目。

以我参与的Nanochat项目为例，我通过Rust氛围编程构建了高效的BPE分词器，却无需系统学习Rust的深层技术细节。

2025年，我还通过氛围编程完成了多个演示项目（如 menugen、llm-council等），甚至曾为排查一个Bug快速编写了整套临时应用。因为在氛围编程模式下，代码变得廉价、即时、可塑，且支持“用完即弃”的轻量化使用场景。未来，氛围编程将彻底改造软件开发生态，并重新定义相关职业的核心价值。

06 Nano Banana/大语言模型图形界面

谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一。在我的认知框架中，大语言模型是继20世纪70-80年代个人电脑之后的又一重大计算范式革新。

因此，我们将看到基于相似底层逻辑的创新复刻：个人计算、微控制器（认知核心）、互联网（智能体网络）的大语言模型等价形态将逐步涌现。

尤其在用户界面/用户体验（UI/UX）领域，与大语言模型的“文本对话交互”，类似20世纪80年代向电脑终端输入指令的操作模式。文本是计算机（及大语言模型）的原生且偏好的数据格式，但并非人类最易接受的交互形式——尤其是在输入端。

人类本质上不擅长阅读长篇文本，这种方式效率低下且耗费精力；相反，人类更倾向于通过视觉化、空间化的方式获取信息，这也是传统计算领域发明图形用户界面（GUI）的核心原因。

同理，大语言模型也应采用人类偏好的格式进行交互——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等可视化形态。目前，这一趋势的早期萌芽是表情符号（Emoji）与标记语言（Markdown），它们通过标题、加粗、列表等格式实现文本的视觉化排版。

但真正的“大语言模型图形界面”究竟由谁来构建？从这一视角来看，Nano Banana正是未来形态的早期雏形。更重要的是，其核心价值不仅在于图像生成能力本身，而在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力。

核心总结：2025年是大语言模型领域充满惊喜与突破的一年。当前的大语言模型既展现出远超预期的智能水平，也存在令人意外的认知短板。但无论如何，它们已具备极高的实用价值——我认为，即便以当前的能力水平，整个行业对大语言模型潜力的开发仍不足10%。

同时，该领域仍有无数创新想法等待探索，从概念层面来看，发展空间依然极为广阔。正如我今年在Dwarkesh的播客中所言：我既相信大语言模型领域将持续保持快速发展，也清楚仍有大量基础性工作需要推进。系好安全带，迎接下一波变革。

阿里云服务器高防服务器

本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260224969.html

2025年大语言模型年度回顾：从模仿到推理的范式跨越

01 基于可验证奖励的强化学习 (RLVR)

02 “幽灵”与“动物”之辩/锯齿状智能

03 Cursor与大语言模型应用的新层级

04 Claude Code/驻留在电脑里的AI

05 氛围编程

06 Nano Banana/大语言模型图形界面

MiniMax通过港交所聆讯，拟明年初上市，刷新全球AI创企IPO最快纪录

从指尖到声波：Typeless如何重塑我的输入习惯

2025年大语言模型年度回顾：从模仿到推理的范式跨越

01 基于可验证奖励的强化学习 (RLVR)

02 “幽灵”与“动物”之辩/锯齿状智能

03 Cursor与大语言模型应用的新层级

04 Claude Code/驻留在电脑里的AI

05 氛围编程

06 Nano Banana/大语言模型图形界面

MiniMax通过港交所聆讯，拟明年初上市，刷新全球AI创企IPO最快纪录

从指尖到声波：Typeless如何重塑我的输入习惯

相关文章