2022年,众多预测专家曾自信断言:到2025年,人工智能仅有不到10%的概率能够赢得国际数学奥林匹克(IMO)金牌,这一观点被视为行业共识。
然而,现实却以惊人的速度击碎了这份保守预期:仅仅两年后,OpenAI与谷歌DeepMind的通用大模型不仅提前“封神”摘金,更彻底重塑了人们对AI能力边界的认知。
从流畅的语言生成到深邃的逻辑推理,从通用任务处理到专业领域竞技,生成式AI正以超越想象的速度,接连翻越人类设立的“智力高墙”。
预言偏离现实越远,AI带来的震撼就越强烈。如今,一个明确的事实是:人工智能的发展节奏,已远远快于过去几年的主流预测框架。
这仅仅是巨变时代的开端。
近期,宾夕法尼亚大学沃顿商学院教授、生成式人工智能实验室联合主任Ethan Mollick明确指出:过去,人们普遍低估了AI技术的演进速度。
他援引了一个典型案例:
2022年,预测研究机构邀请了169位顶尖学者与预测专家评估AI进展。当时,他们分别给出结论:到2025年,任何AI系统赢得IMO金牌的概率仅为2.3%和8.6%。
结果,现实给予了有力回击:谷歌DeepMind的Gemini与OpenAI的ChatGPT等通用大模型,在2025年国际数学奥赛中双双斩获金牌。
一场关于AI史上首块“IMO金牌”的争夺悄然上演:OpenAI率先公布结果引发关注,而谷歌DeepMind的模型成绩则获得了IMO官方正式认证。
OpenAI凭借先发优势,在舆论场中收获了巨大流量:
据悉,出于对参赛学生的尊重,谷歌在等待IMO官方认证后才公布了最终结果。
这是一个标志性的历史时刻,彰显了过去十年人工智能领域的巨大飞跃。原本专为语言生成设计的大语言模型,在数学推理领域展现出的能力,远超绝大多数人的预期。
OpenAI的研究科学家Noam Broen指出,当时的预测若针对“大语言模型”这类通用系统,专家给出的概率将会更低。
颇具戏剧性的是,就在国际奥数成绩发布前夕,MathArena平台对当时可用的大模型进行测评,结果显示无一能达到铜牌标准:
然而不久之后,AI夺金的消息便震撼传来。
在数学推理能力上,大语言模型一再被低估。预测研究院也承认,AI在国际奥数竞赛中的表现堪称惊艳。
预测失准并非偶然,它反映了技术范式的根本性转变。事实上,在MATH、MMLU和QuALITY等多项标准AI基准测试中,预测结果几乎全面落空。
例如,在MATH数据集测试中,GPT-4 Turbo于2024年4月达到87.82%的准确率,而领域专家和超级预测者此前认为到2024年6月底达成此目标的概率仅分别为21.4%和9.3%。
在MMLU测试中,GPT-4o和Claude 3.5 Sonnet在2024年中旬已达88.7%,而预测的可能性分别只有25.0%和7.2%。
在QuALITY Hard子集上,RAPTOR + GPT-4在2023年6月得分69.3,比预测截止日期整整提前了一年。
无论是领域专家还是超级预测者,都错误判断了AI发展的速度与轨迹。两组人群均低估了截至2024年底AI的最大算力规模,其中超级预测者的估值仅为实际值的五分之一。同时,他们又高估了机器学习模型的参数上限:
专家预测参数规模将达100万亿,
超级预测者则预期为400万亿,
而当前初步确认的规模约为10万亿,比预测值低了整整一个数量级。
类似地,麦肯锡曾发布报告,展示了人工智能专家小组在2017年(即大语言模型兴起前)的预测。
例如,麦肯锡预测AI将在2037年达到人类平均创造力水平。但事实上,这一目标在2023年便已实现。
而对于达到人类前1/4顶尖创造力水平的预测,麦肯锡原本估计要到2055年,而这一目标也已提前约30年达成。
由于生成式人工智能的迅猛发展,技术性能预计将比此前估计的更早达到人类中位数水平,并在广泛能力范围内逼近人类前25%的顶尖水准。
再如,麦肯锡全球研究院曾认为,在自然语言理解方面,技术最早可能在2027年达到与人类中位数相当的水平,但在新的分析中,这一时间点已大幅提前至2023年。
在2025年的报告中,麦肯锡指出,过去两年人工智能取得了爆炸性增长,众多关键创新层出不穷⬇️。
现实中AI的进步如此神速,令网友Aravind Sunda惊叹:
变化之快堪称疯狂。2022年看似遥不可及的目标,如今已触手可及。
回顾2022年11月30日,ChatGPT正式发布。在此之前,生成模型或GenAI更多指代图像、视频生成等领域,OpenAI仍在探索GPT的潜在应用场景。
因此,ChatGPT的出现或许才是最大的变数,正如网友Mahaoo所言:
在ChatGPT和GPT-4问世之前的所有预测,几乎都注定严重低估了AI的实际进展。因为这些模型的横空出世,让外界第一次真切看清了AI的潜力与进化速度。
不过,大语言模型目前仍存在“锯齿状智能”现象:在某些方面表现卓越,在其他方面却可能不尽如人意。
威斯康星大学计算机科学教授Pedro Domingos对此提出质疑:
AI在某些领域确实领先,但在其他领域则不然。基于预测家们所考察的少数领域,很难做出如此一概而论的全局判断。
或许,人们常常高估AI的短期影响,却总是低估其长期变革潜力。
而一个更深层的转变正在酝酿:我们正迈入“大众智能”时代,强大的AI变得如同谷歌搜索一样易于获取。
对于大多数用户而言,访问强大AI一直存在两大障碍:
1. 选择困惑:很少有人清楚该如何挑选合适的AI模型。
2. 成本门槛:顶级模型通常价格昂贵,免费用户往往无法使用,或仅享有极其有限的访问权限。
而GPT-5的设计初衷正是为了解决这些问题:它通过智能路由机制,避免简单问题消耗过高算力,自动为用户匹配最优模型,从而使更多人有机会接触到推理模型等强大AI。
尽管这套机制在上线初期因解释不足和路由判断偶有失误而显得混乱,但奥特曼很快宣布GPT-5取得了初步成功:
上线短短数日内,经常使用推理模型的付费用户比例从7%跃升至24%,而免费用户中能够接触到顶尖模型的比例也从几乎为零提升到了7%。
推动这一变革的,还有模型效率的显著提升。AI变得越来越智能,但其运行成本却在急剧下降。下图直观展示了这一趋势。
这些改进带来的直接结果是:即便AI能力日益强大,它也已变得足够廉价,能够惠及普罗大众。服务新增用户的边际成本呈现崩塌式下降,这也使得基于广告等模式的商业化成为可能。
两年前需要花费数美元的提示任务,如今免费用户便能轻松运行。这正是数以亿计用户突然能够使用强大AI的根本原因:并非源于某个宏大的“AI平民化”愿景,而是算力经济学终于演进到了这一阶段。
然而,仅仅能够访问强大AI还不够,关键在于人们能否真正利用它来完成实际任务。
过去,高效使用AI被视为一种“黑科技”:
需要精心构思提示词,
运用思维链等复杂技巧,
再结合各种小窍门,才能逼近理想答案。
但近期的一系列实验表明,这些技巧的重要性已大大降低。
传送门:https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/
如今的顶尖模型越来越擅长直接理解并执行用户请求,甚至能主动“揣摩”用户意图,超额完成任务。
而且,变革不仅限于文本模型。近期,谷歌发布了一款内部代号为“nano banana”的全新图像模型。它不仅在图像编辑上表现卓越(甚至比生成全新画面更为稳定),而且成本低廉到足以向免费用户开放。更关键的是,它终于能够准确理解自然语言指令,无需复杂的“提示词工程”。
当数亿人掌握强大AI时,各种社会现象将同步涌现。事实上,它们已在发生:
有人与AI模型建立起深厚的情感联结,也有人借此驱散孤独;
有人因AI陷入精神困扰或危险行为,也有人利用AI诊断疾病、挽救生命……
衍生出了成千上万种意想不到的应用场景。
随着模型愈发强大,这些应用、问题与益处只会呈指数级增长。AI巨头——无论其关于“安全”的承诺是否可信——已无法完全掌控这股浪潮。
当十亿人同时拥有先进AI时,人类真正步入了所谓的群体智能时代。
我们所有的社会制度——学校、医院、法庭、公司、政府——过去都建立在“智能稀缺且昂贵”的前提之上。如今,每一个职业、每一家机构、每一个社区,都必须重新思考:
如何在群体智能的环境中生存与发展?
如何在信息造假泛滥的世界里重建信任基石?
如何在知识普及的同时,保留人类独特专业经验的价值?
参考资料:
https://x.com/emollick/status/1962859757674344823
https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/the%20economic%20potential%20of%20generative%20ai%20the%20next%20productivity%20frontier/the-economic-potential-of-generative-ai-the-next-productivity-frontier.pdf
https://www.oneusefulthing.org/p/mass-intelligence
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213437.html