随着号称“史上最强”的Claude Opus 4.5模型正式发布,其在编程领域的表现已经全面超越了顶尖人类工程师。这一技术飞跃迫使AI巨头Anthropic不得不宣布取消传统的入职技术笔试,并将曾经引以为傲的内部考题全面开源。
近期,程序员们面对AI的最后一道技术堡垒似乎正加速瓦解。
此前,Anthropic曾为应聘者设计了一套难度极高的“Take-home”测试题目,旨在筛选全球最顶尖的性能工程人才。这套考题长期以来效果显著,直到Claude Opus 4.5的出现打破了平衡。
在这一强悍模型的辅助下,普通候选人也能轻松攻克复杂难题,导致原有的筛选机制彻底失效。由于传统的编程笔试已无法有效区分人才与AI,Anthropic决定将旧版试题开源,并向全球征集:是否有一种新方法,能真正衡量人类在AI时代的编程能力?
为了纪念这套试题的历史使命,Anthropic将其最初版本公开发布,作为一项面向全人类的技术挑战。
开源地址:https://github.com/anthropics/original_performance_takehome
在该测试中,候选人需要深入底层,完成多核并行优化、SIMD向量化加速以及VLIW指令打包等极具挑战性的任务,并利用Perfetto trace工具进行精细化的性能瓶颈分析。
Anthropic的技术团队依然坚信:如果给予无限的时间,人类顶尖专家的上限仍能突破Claude的极限。他们公开表示:如果有哪位开发者能靠个人实力击败Claude Opus 4.5的纪录,请务必联系他们!
在AI能力指数级增长的当下,如何公平地评估软件工程师的价值?Anthropic在其最新的技术博客中分享了关于“抗AI干扰面试评估”的深刻思考。
博客详情:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations
Anthropic性能工程团队曾长期使用一套模拟加速器优化题目。这套题在过去一年中筛选出了点亮Trainium集群的核心成员,是公司人才库的基石。然而,随着Claude版本的更迭,这套题目的有效性被迅速瓦解。
Claude Opus 4已经能优于大多数人类申请者,而Claude Opus 4.5的出现则直接触及了人类表现的天花板。在标准的面试时限内,人类已经很难在性能优化上与该模型拉开差距。
2023年末,Anthropic急需性能优化人才。为了高效筛选,团队负责人Tristan Hume设计了这一Take-home测试,其特点如下:
真实环境模拟:提供长达2-4小时的窗口,模拟真实开发环境,允许使用AI辅助(考察人机协作)。
深度系统考察:不考察刷题技巧,而是考察对内存管理、并行计算等底层架构的理解。
Tristan构建了一个具有TPU特征的Python模拟器,要求候选人在这个虚拟的VLIW架构机器上优化树遍历算法。这不仅需要解决内存带宽瓶颈,还要进行复杂的指令级并行优化。
2025年5月,Claude 3.7 Sonnet已经能让半数候选人通过AI辅助拿到高分。而当Tristan测试Claude Opus 4.5时,他被震撼了:该模型不仅能处理常规微优化,甚至在遇到极难的内存瓶颈时,能通过逻辑推理发现只有极少数人类专家才能想出的巧妙避坑技巧。
更令人警惕的是,在“测试时计算”框架下,Claude Opus 4.5的分数会随着思考时间的增加而持续攀升。这种“降维打击”让Anthropic意识到,原有的面试模式必须彻底改变。
在尝试设计新题目的过程中,Tristan发现,任何基于真实生产环境的问题,Claude由于拥有海量的预训练数据,都能迅速找到最优路径。为了难倒AI,他不得不转向“分布外(OOD)”策略——设计极其古怪、在现实中不存在的指令集和受限环境。
借鉴Zachtronics解谜游戏的思路,他设计了一套没有调试器、没有可视化工具且指令集极度简化的题目。在这种“AI从未见过的荒原”上,人类的直觉和创造力才重新展现出微弱的优势。
虽然Claude Opus 4.5已经非常强大,但Anthropic认为性能优化的最终艺术仍掌握在人类手中。他们公布了目前的AI最佳战绩纪录,邀请全球高手来打破:
1363周期:这是Claude Opus 4.5在改进框架后的极限数据。
“如果你能做到1487周期以下,甚至冲击1363的纪录,你就是我们要找的性能之神。”在AI时代,人类的智慧将以更纯粹、更具创造力的方式得以证明。
本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260433504.html