当前位置:首页 > 科技资讯 > 正文

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在?

随着号称“史上最强”的Claude Opus 4.5模型正式发布,其在编程领域的表现已经全面超越了顶尖人类工程师。这一技术飞跃迫使AI巨头Anthropic不得不宣布取消传统的入职技术笔试,并将曾经引以为傲的内部考题全面开源。

近期,程序员们面对AI的最后一道技术堡垒似乎正加速瓦解。

此前,Anthropic曾为应聘者设计了一套难度极高的“Take-home”测试题目,旨在筛选全球最顶尖的性能工程人才。这套考题长期以来效果显著,直到Claude Opus 4.5的出现打破了平衡。

在这一强悍模型的辅助下,普通候选人也能轻松攻克复杂难题,导致原有的筛选机制彻底失效。由于传统的编程笔试已无法有效区分人才与AI,Anthropic决定将旧版试题开源,并向全球征集:是否有一种新方法,能真正衡量人类在AI时代的编程能力?

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第1张

为了纪念这套试题的历史使命,Anthropic将其最初版本公开发布,作为一项面向全人类的技术挑战。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第2张

开源地址:https://github.com/anthropics/original_performance_takehome

在该测试中,候选人需要深入底层,完成多核并行优化、SIMD向量化加速以及VLIW指令打包等极具挑战性的任务,并利用Perfetto trace工具进行精细化的性能瓶颈分析。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第3张

Anthropic的技术团队依然坚信:如果给予无限的时间,人类顶尖专家的上限仍能突破Claude的极限。他们公开表示:如果有哪位开发者能靠个人实力击败Claude Opus 4.5的纪录,请务必联系他们!

深度解析:Claude Opus 4.5是如何攻克顶尖笔试的?

在AI能力指数级增长的当下,如何公平地评估软件工程师的价值?Anthropic在其最新的技术博客中分享了关于“抗AI干扰面试评估”的深刻思考。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第4张

博客详情:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

Anthropic性能工程团队曾长期使用一套模拟加速器优化题目。这套题在过去一年中筛选出了点亮Trainium集群的核心成员,是公司人才库的基石。然而,随着Claude版本的更迭,这套题目的有效性被迅速瓦解。

Claude Opus 4已经能优于大多数人类申请者,而Claude Opus 4.5的出现则直接触及了人类表现的天花板。在标准的面试时限内,人类已经很难在性能优化上与该模型拉开差距。

测试题的设计初衷:硬核与真实的平衡

2023年末,Anthropic急需性能优化人才。为了高效筛选,团队负责人Tristan Hume设计了这一Take-home测试,其特点如下:

真实环境模拟:提供长达2-4小时的窗口,模拟真实开发环境,允许使用AI辅助(考察人机协作)。

深度系统考察:不考察刷题技巧,而是考察对内存管理、并行计算等底层架构的理解。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第5张

Tristan构建了一个具有TPU特征的Python模拟器,要求候选人在这个虚拟的VLIW架构机器上优化树遍历算法。这不仅需要解决内存带宽瓶颈,还要进行复杂的指令级并行优化。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第6张

AI的进化史:从追随者到终结者

2025年5月,Claude 3.7 Sonnet已经能让半数候选人通过AI辅助拿到高分。而当Tristan测试Claude Opus 4.5时,他被震撼了:该模型不仅能处理常规微优化,甚至在遇到极难的内存瓶颈时,能通过逻辑推理发现只有极少数人类专家才能想出的巧妙避坑技巧。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第7张

更令人警惕的是,在“测试时计算”框架下,Claude Opus 4.5的分数会随着思考时间的增加而持续攀升。这种“降维打击”让Anthropic意识到,原有的面试模式必须彻底改变。

寻找新出路:从“真实”走向“离奇”

在尝试设计新题目的过程中,Tristan发现,任何基于真实生产环境的问题,Claude由于拥有海量的预训练数据,都能迅速找到最优路径。为了难倒AI,他不得不转向“分布外(OOD)”策略——设计极其古怪、在现实中不存在的指令集和受限环境。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第8张

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第9张

借鉴Zachtronics解谜游戏的思路,他设计了一套没有调试器、没有可视化工具且指令集极度简化的题目。在这种“AI从未见过的荒原”上,人类的直觉和创造力才重新展现出微弱的优势。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第10张

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第11张

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第12张

致全球工程师的一封挑战书

虽然Claude Opus 4.5已经非常强大,但Anthropic认为性能优化的最终艺术仍掌握在人类手中。他们公布了目前的AI最佳战绩纪录,邀请全球高手来打破:

1363周期:这是Claude Opus 4.5在改进框架后的极限数据。

Claude 4.5横扫Anthropic面试:开源旧题求助全人类,程序员堡垒何在? 4.5  Anthropic面试题开源 性能工程优化 AI耐受性测试 第13张

“如果你能做到1487周期以下,甚至冲击1363的纪录,你就是我们要找的性能之神。”在AI时代,人类的智慧将以更纯粹、更具创造力的方式得以证明。