大语言模型(LLM)正以前所未有的速度进化,据METR研究,其智能每7个月便翻一番。至2030年,一个模型或许仅需数小时,就能完成人类工程师数月之工作。您的职业,或许正处于变革的倒计时中。
随着大模型能力的飞跃,各种评估基准也应运而生。
从经典的MMLU、HellaSwag,到多模态的MMMU、MathVista,再到AGI风格的Arena对决、Agent任务、Tool-use测试,它们共同构成了评估LLM能力的重要工具。
如何科学地衡量LLM在长时、复杂、真实世界任务中的能力,成为关键。
今年3月,METR发布重磅研究《Measuring AI Ability to Complete Long Tasks》,首次提出令人耳目一新的指标:
50%任务完成时间视野(50%-task-completion time horizon)
——即:AI能以50%成功率完成的任务,人类通常需多久完成?
论文链接:https://arxiv.org/pdf/2503.14499
据此,METR展开了一系列研究,包括任务复杂度设定、人类基准时间测量、多模型对比实验到层层统计回归建模。
最终,团队精准量化了AI智力演进速度,并抛出惊人预测:
按当前增速,5年后,大模型或能一日之内自动完成原本需人类数月之力的复杂任务。
METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。
结果显示出清晰的指数增长趋势:在过去的六年中,模型能力每7个月翻一番。
图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分层自助法(hierarchical bootstrap),计算得出95%的置信区间。
然而,这个指数增长趋势非常陡峭,所以对误差有很高的容忍度。
即便绝对测量误差达到10倍,能力到来的时间也仅会改变大约2年左右。
因此,团队对不同能力何时出现的预测基本不会出错。
研究的核心是提出的这项指标:「任务完成时间视野」(task-completion time horizon)。
这个指标相当于给分别完成任务的人和AI加了个映射:
想象一组各不相同的任务,人类完成这些任务分别需要不同的时间。
把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。
然后对应去看人类完成这一档任务通常需要多长时间。
这个人类所需的时间,就是该模型的50%-task-completion time horizon,也即「任务完成时间视野」。
为了证明这个基准的有效性,团队做了翔实的统计分析。
结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系。
简而言之,人做起来越慢,模型做起来越容易失败。
并且,用指数模型拟合这个负相关趋势效果很好。
证明了这项指标的有效性后,来看看各个模型在这个指标上的表现。
团队进一步检验了不同模型能完成的任务所对应的人类耗时。
结果相当符合直觉:
2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需写几句话的简单任务。
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436950.html