在人工智能技术驱动下,过去一年人类社会取得了前所未有的进步。当我们驻足回望时,AI似乎已经渗透到各个领域,展现出近乎全能的表现。然而,前OpenAI核心研究员坚信AI不会在短期内全面超越人类,并围绕此观点提出了三个极具前瞻性的最新洞见。
如果让你用三句话来概括2025年人工智能领域的整体演进,你的答案会是什么?
所有能够被有效验证的工作任务,最终都将被人工智能系统解决
智能最终将演变为一种标准化商品,知识的获取成本将无限接近于零
人工智能不会在短时间内全面超越人类智能
近期,前OpenAI核心研究员、思维链(CoT)方法论创始人Jason Wei在斯坦福大学人工智能俱乐部进行了一场内容丰富的主题演讲。
这是他加入Meta公司后为数不多的公开技术分享活动之一。
在我们所处的这个世界中,在人工智能技术广泛普及应用的这一年里,究竟发生了哪些根本性的变革?
人工智能技术如果沿着当前路径持续发展下去,最终会呈现出怎样的形态?
量化交易领域的从业者认为人工智能技术虽然很先进,但暂时无法完全替代我的工作岗位;
顶尖实验室的人工智能研究员却表示:在未来两到三年内,AI技术很可能就要取代我的工作了。
那么,这两种截然不同的观点,究竟哪一方更接近未来的真实情况呢?
Jason Wei提出的核心概念是智能即商品(Intelligence as a Commodity)。
人工智能的智能发展大致可以划分为两个关键阶段:
第一阶段:前沿能力突破阶段,当人工智能系统还无法高效完成某项特定任务时,研究工作的核心焦点在于「解锁全新的能力」。
第二阶段:能力大规模商品化阶段,一旦人工智能系统能够可靠地完成该项任务,这项能力就会被迅速复制和推广,其应用成本将逐渐趋近于零。
以MMLU(大规模多任务语言理解基准测试)为例,在过去几年中,模型的性能得分呈现稳定上升趋势,而达到特定性能分数所需的经济成本却在逐年快速下降。
人工智能的出现,标志着深度学习领域首次真正实现了自适应计算(Adaptive Compute)机制。
在传统的计算模式中,无论任务是简单还是复杂,模型通常都会消耗固定且相同的计算资源。
现在,系统能够根据任务的实际复杂程度动态调整推理所需的计算资源。
例如,在o1模型中,通过在推理过程中投入更多的计算量,就能在解决数学难题时获得更高的准确率。
这意味着一项重要转变:智能服务的成本可以持续降低,而无需无限制地扩大底层模型的规模。
与此同时,信息的获取正变得前所未有的便捷。
人工智能技术正在使「公开知识」的获取时间无限趋近于零。
Jason以「查询1983年韩国釜山地区的结婚人数」这个具体任务为例,说明了这种演变:
互联网普及前的时代:前往图书馆查阅百科全书,耗时数小时
互联网时代:通过搜索引擎查找网站、筛选相关资料,耗时数分钟
聊天机器人时代:直接向AI助手提问,即时获得答案
智能体(Agent)时代:AI自动查找并整合多个数据库的信息,耗时数秒到数分钟
总而言之,Jason Wei认为智能作为一种「商品」,其价格将变得越来越低廉,这将引发一系列连锁反应:
知识获取民主化:编程、生物黑客等曾经需要高门槛专业知识的领域正变得大众化。
私有信息的相对价值提升:公开信息的获取成本趋近于零,使得内部消息或独家信息的价值反而更加凸显。
个性化互联网体验:未来每个人都有可能拥有一个完全为自己定制的知识获取入口。
什么是验证者法则?其核心表述是:
所有能够被有效验证的任务,最终都会被人工智能系统解决。
因此,当前出现了各式各样的性能评测基准。
只要能够建立起一个「能够被清晰验证的任务目标」,人工智能最终都会攻克这个领域。
一个明显的规律是:越容易生成的任务内容,往往越难以进行有效验证。
这就是所谓的验证过程的不对称性。
例如,解决一个数独题目和开发一个完整网站,都属于中等难度到高难度的任务。
但是,验证一个数独题目的答案是否正确,与验证一个网站是否开发得优秀,其难度差异巨大!前者非常简单,后者则复杂得多。
许多任务都存在「生成过程困难,但验证过程相对简单」的不对称特性:
解答数独难题:求解过程困难,但验证答案是否正确非常容易。
编写一个网站的全部代码:生成过程极其复杂,但验证只需在浏览器中点击运行即可。
撰写事实性文章:生成看似合理的文本相对容易,但进行事实核查需要耗费大量时间。
提出新的饮食疗法:轻易断言「只吃野牛肉最好」,但验证其有效性和安全性需要长期的科学实验。
我们可以将不同类型的任务放置在一个二维平面上进行分析:X轴代表生成难度;Y轴代表验证难度。
某些任务可以通过提供额外的参考信息来使其变得更容易验证:
例如,提供标准答案或完整的测试数据集,可以使「生成→验证」的循环过程更加高效。
人工智能系统能否掌握一项任务,与该任务的可验证性成正比关系。
换言之:任何可以被有效验证和量化的任务,最终都将被人工智能所掌握。
如下图所示,在过去五年中,大部分人工智能基准评测任务都非常容易被「验证」。
Jason Wei详细阐述了决定任务可验证性的五个关键因素:
是否存在客观的真相或标准答案;
验证过程的速度是否足够快;
能否批量验证大量的任务样本;
验证结果是否具有低噪声性和稳定性;
是否能获得连续的反馈(而不仅仅是「对/错」的二元判断,还包括对质量的梯度评价)。
几乎所有人工智能基准测试(benchmarks)都具备这些特征,因此它们被迅速攻克也就不足为奇了。
Jason Wei重点描述了一个典型案例:DeepMind开发的AlphaEvolve系统。
该系统通过大规模采样与自我验证的机制,成功解决了大量「易于验证但难以求解」的复杂任务。
其核心工作流程是:
利用大型语言模型生成一系列候选答案;
通过自动化程序对答案进行打分(验证过程);
选取最优的样本再次输入模型,形成迭代优化循环;
经过多次迭代后,系统的整体性能得到显著提升。
这种策略巧妙地绕过了传统「训练集-测试集」的泛化能力问题,专注于对「单个具体任务」进行持续优化。
我们可以对此部分进行总结:
能够被轻易验证的任务将率先被人工智能实现自动化。
这带来了新的创业机会:为人工智能系统创造「可被精确测量的优化目标」。
换言之——只要你能定义一个明确的、可量化的性能指标,人工智能就能为你持续优化它。
这个关键概念的英文表述是The Jagged Edge of Intelligence,即智能的锯齿状边界。
直接翻译可能有些抽象,但观察下图就能直观理解其含义。
简而言之,人工智能的智能水平并非「均匀平滑」或「全知全能」的,其在不同任务上的能力表现就像锯齿一样,存在显著的高低起伏。
Jason认为不太可能出现「人工智能在短期内爆炸式全面超越人类」的所谓「快速起飞(Fast Take off)」 scenario。
人工智能的自我改进能力将是渐进式的、按不同任务领域分别发展的。
不同任务类型的学习速度和能力上限各不相同,不会出现「一夜之间在所有方面都超越人类」的情况。
每个具体任务的改进速率存在差异:
一些任务进步迅速(例如那些易于验证的数学计算、编程任务)。
一些任务改进缓慢(例如需要真实世界交互或依赖罕见数据资源的语言理解任务)。
因此,人工智能的整体发展呈现出一条「锯齿形状」的曲线:在某些特定领域突飞猛进,在另一些领域则可能长期停滞。
那么,人工智能在哪些类型的任务上发展较快,在哪些任务上发展较慢呢?
判断任务进展速度的三条经验性法则:
高度数字化的任务发展迅速:迭代速度快、实验成本低;例如软件开发的速度远快于实体机器人的制造。
对人类而言简单的任务,对AI而言通常也较简单:但AI也能在某些「人类极难完成但具有明确优化目标」的领域超越人类,例如基于医学影像预测癌症。
数据越丰富的领域,AI表现越强大:语言模型在高资源语言上的性能显著优于低资源语言。如果任务能提供单一的客观评价指标,甚至可以利用强化学习技术生成合成数据来加速训练。
例如AI编程和竞赛级数学问题,目前基本已被人工智能攻克。
但是,对于那些数据量稀少、难以进行数字化的领域,人工智能就很难取得突破。
对此部分进行总结:
不存在统一的、瞬间发生的「人工智能超级智能大爆发」;
不同任务领域将以各自不同的速率演进;
受人工智能影响最大的领域特征是:高度数字化、人类已具备较高专业水平、数据资源丰富
Jason Wei在演讲的最后总结道:
智能与知识的获取将变得极其快速且成本低廉,公共知识的获取时间将无限趋近于零。
而「验证者法则」则预示着可度量性将推动人工智能持续进步,任何可以被验证的任务最终都会被人工智能征服。
智能的边界是锯齿状且不均衡的。各个任务领域的发展速率各不相同,不会出现瞬间的、全面的超智能崛起。
未来的信息将实现无摩擦的流动,而人工智能的能力边界,将由我们人类能够精确定义和有效验证的事物所决定。
Jason Wei,目前担任Meta超级智能实验室(Meta Superintelligence Labs)的研究科学家。
他曾在OpenAI工作两年,参与了o1模型的创建以及DeepResearch项目的研究工作;
在此之前,他是Google Brain的研究员,推动了思维链(Chain-of-Thought)推理、指令微调(Instruction Tuning)等关键技术的发展。
他的学术论文被引用次数超过9万次,是现代人工智能领域最具影响力的研究者之一。
参考资料:
https://www.youtube.com/watch?v=b6Doq2fz81U
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118540.html