人工智能能否自动生成苹果芯片的Metal内核,并且性能超越官方实现?最新研究给出了肯定答案。
Gimlet Labs发布的最新成果显示,在苹果设备上,AI不仅可以自动生成Metal内核,而且相比基线内核,在PyTorch推理速度上实现了87%的提升。
更令人震惊的是,AI生成的Metal内核在测试的215个PyTorch模块中平均加速达到1.87倍,部分工作负载甚至比基准快数百倍。
这是否意味着AI正在推动苹果AI技术迈向新高度?
核心结论是:通过AI自动实现内核优化,无需修改用户代码、引入新框架或进行移植,即可显著提升模型性能。
为验证这一点,研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型,让它们为苹果设备生成优化的GPU内核,以加速PyTorch推理。
为何选择苹果设备?原因在于其作为全球领先硬件供应商的广泛影响力。
接下来,让我们详细解析研究人员的实验方法:
首先,在模型选择上,测试涵盖了claude-sonnet-4、claude-opus-4;gpt-4o、gpt-4.1、gpt-5、o3;deepseek-v3、deepseek-r1等多个先进模型。
其次,测试输入基于KernelBench数据集定义的PyTorch模块,从中选取215个模块进行评测。
这些模块分为三个层级:第一级包含简单操作(如矩阵乘法、卷积);第二级由第一级操作组合成的多操作序列;第三级则是完整模型架构(如AlexNet、VGG)。
再次,评估指标聚焦两方面:一是AI生成内核的正确性,二是其相较于基准PyTorch的性能增益。
最后,实验硬件采用Mac Studio (Apple M4 Max芯片),基线为PyTorch eager mode(这是关键比较点)。
在准备就绪后,研究团队展开系统测试。
测试流程如下:接收提示(prompt)和PyTorch代码;生成Metal内核;评估其正确性是否与基准PyTorch一致;如果编译失败或结果错误,则将错误信息反馈给模型重试,最多允许5次尝试。
研究者首先关注AI生成内核的正确性。实验显示,正确性随尝试次数增加而提高。以o3模型为例:首次尝试约有60%的概率生成可用实现,到第5次尝试时可用比例升至94%。
此外,研究还发现推理模型擅长跨层级生成正确内核,尽管非推理模型也能部分实现。
那么,AI生成的内核性能如何?结果令人印象深刻,几乎所有模型都生成了比基准更快的内核。
例如,GPT-5在一个Mamba 25状态空间模型上实现了4.65倍加速,主要通过内核融合来减少调用开销并优化内存访问模式。
在某些案例中,o3甚至将延迟降低了超过9000倍!总体而言,GPT-5平均带来约20%的加速,其他模型稍逊。
然而,GPT并非在所有问题上都最优。研究发现,GPT-5在34%的问题上生成最优解,但在另外30%的问题上,其他模型的解决方案更优。
这意味着没有单一模型能在所有问题上生成最优内核。因此,组合多个模型有望提高生成最优内核的概率。
基于此,研究人员进行了智能体群体实验(Agentic Swarm)。
正如预期,智能体群体策略相较于单个模型实现了更高的性能提升。与GPT-5相比,智能体群体在各层级平均加速31%,在Level 2问题上加速42%。
即使在缺乏上下文信息的情况下(仅输入问题和提示),智能体群体已表现优异。研究人员进一步尝试提供更多上下文以获取更优内核。
额外上下文主要包括两个来源:一是CUDA实现(由于Nvidia GPU普及,通常有优化参考);二是M4芯片上gputrace的性能分析信息(包含Apple Script捕获的摘要、内存和时间线视图)。
在具体实施中,研究者将截图处理任务分配给子智能体,由其为主模型提供性能优化提示。主智能体首先生成初步实现,然后进行性能分析和计时,再将截图传给子智能体生成优化提示。
实验表明,在上下文配置方面同样没有“单一最佳”方案。
性能方面,加入额外上下文实现了平均1.87倍的加速,而普通智能体仅实现1.31倍平均加速,额外上下文将提升幅度扩大了三倍!
为深入理解,有必要回顾相关背景知识。在PyTorch中,用户通常调用如Sequential、ReLU等函数。执行时,PyTorch先将函数分解为张量运算(如矩阵乘法),再交由GPU处理。此时,GPU内核负责将这些数学操作转换为低级并行指令,其性能至关重要,类似C编译器的作用。
本研究的核心是让AI自动化原本需工程师手写的内核优化,并测试其性能。但问题在于:苹果硬件对PyTorch的优化不如英伟达CUDA成熟,因此直接对比MPS后端原生实现和AI生成内核可能不公。
许多网友指出,研究所用基线为eager mode,这通常仅用于训练调试或指标计算,而非实际部署。真实部署中,模型常被导出为ONNX并编译为设备原生格式(如Metal),效率远高于PyTorch eager mode。
因此,无论内核如何生成,优化后的GPU内核都会比未优化的PyTorch推理快得多。对比调试内核与eager模式可能略显不寻常。
对此,研究人员回应:本研究旨在展示AI自动生成内核的可行性,而非部署环境的极限性能。目标是自动化内核工程流程,减少开发投入,重点在于原型验证而非性能绝对值。
这一研究方向引发了广泛思考:AI能否在硬件优化中扮演更关键角色?
参考链接
[1]https://gimletlabs.ai/blog/ai-generated-metal-kernels#user-content-fn-4
[2]https://news.ycombinator.com/item?id=45118111
[3]https://en.wikipedia.org/wiki/Compute_kernel
[4]https://github.com/ScalingIntelligence/KernelBench/
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213518.html