AI赋能下的苹果芯片Metal内核,能否超越官方表现?
Gimlet Labs最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还在基线内核基础上实现了87%的PyTorch推理速度提升。
更令人惊讶的是,AI生成的Metal内核在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中部分工作负载的提速更是达到了数百倍。
AI让苹果设备性能再升级?
总结来说,通过AI自动优化内核,无需修改用户代码、无需新框架或迁移,即可显著提升模型性能。
为了验证这一点,研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型,让它们为苹果设备生成优化的GPU内核,以加速PyTorch推理速度。
为何选择苹果?答案很简单——因为它是全球最大硬件供应商(doge)
接下来,让我们深入了解研究人员是如何操作的:
首先,在模型选择上,参与测试的模型包括:claude-sonnet-4、claude-opus-4、gpt-4o、gpt-4.1、gpt-5、o3、deepseek-v3和deepseek-r1。
其次,在测试输入上,研究使用了KernelBench数据集中定义的PyTorch模块,并选取了其中的215个模块进行测试。
这些模块被分为三个等级:第一级为简单操作(如矩阵乘法、卷积);第二级为由第一级操作组成的多操作序列;第三级为完整的模型架构(如AlexNet、VGG)。
再次,在评估指标上,研究人员主要关注两个指标:一是AI生成内核的正确性,二是其相较于基线PyTorch的性能提升。
最后,研究使用的苹果硬件为Mac Studio (Apple M4 Max chip),基线为PyTorch eager mode。
在准备完毕后,研究团队展开了测试。
测试流程如下:
研究者首先关注AI生成内核的正确性。
实验表明,正确性会随着尝试次数的增加而提升。以o3为例:首次尝试即有约60%的概率得到可用实现,到第5次尝试时,可用实现比例达到94%.
此外,研究还发现推理模型擅长跨层级生成正确的内核,尽管非推理模型有时也能做到。
那么,AI生成的内核表现如何呢?
实验结果相当惊艳,几乎每个模型都生成了一些比基线更快的内核。
例如,GPT-5在一个Mamba 25状态空间模型上实现了4.65倍的加速,主要通过内核融合来减少内核调用的开销并改善内存访问模式。
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440718.html