2025年即将画上句号,真正的AI高手,其实就隐藏在「民间」!
不是谷歌,不是OpenAI,而是Anthropic的Claude Opus 4.5编程模型。
据最新发布的METR报告称,Claude Opus 4.5已经能够持续自主编码「长达5小时不崩」。
就连OpenAI最强大的编程模型——GPT-5.1-Codex-Max也败下阵来。
如今,网络上到处都是对Claude Opus 4.5编码实力的赞叹。
AI编码智能体能处理的任务时长不仅在指数级增长——其增速还在持续提升!
2019-2024年:任务时长每7个月翻一倍
2024-2025年:任务时长每4个月翻一倍
虽然有人摇头,有人不解,但一个事实愈发清晰:AI编码智能体能连续完成的任务,正在从「分钟级」冲向「小时级」,并且加速度还在上升。
这张图为何被称为「最重要的图表」?因为它回答了关键问题:
AI是否遇到瓶颈?AGI是否只是乌托邦?
普通用户可能感觉不明显,但对大多数人来说,模型早已能应对日常提问:
「推荐部电影」「解释这个概念」「写段文案」。
真正的变化发生在另一条战线:编码智能体。
这是多数人(包括记者与政策制定者)难以触及的领域。
到明年,AI智能体将带来哪些变化?
为了量化比较AI与人类能力,今年3月METR提出了一个新指标:50%任务完成时间跨度(TCTH)。
简单来说,把AI当新人:给它一项工作,看它做到「有5成概率能做成」时,这项工作的人类平均耗时有多久。
GPT-5.1-Codex-Max,已能完成长达两小时半的软件工程任务(成功率约五成),能力较GPT-4提升四倍。
而Claude Opus 4.5的TCTH约为四小时四十九分钟。这是迄今为止公布的最长的时间跨度。
尽管TCH较长,但Opus 4.5模型的8成TCH仅为二十七分钟,与过去模型表现相当,且低于GPT-5.1的三十两分钟。
本文由主机测评网于2026-05-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546735.html