当前位置:首页 > 科技资讯 > 正文

AI赋能苹果芯片:Metal内核优化与性能飞跃

AI赋能下的苹果芯片Metal内核,能否超越官方表现?

Gimlet Labs最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还在基线内核基础上实现了87%的PyTorch推理速度提升。

更令人惊讶的是,AI生成的Metal内核在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中部分工作负载的提速更是达到了数百倍

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第1张

AI让苹果设备性能再升级?

AI为苹果设备打造高效内核

总结来说,通过AI自动优化内核,无需修改用户代码、无需新框架或迁移,即可显著提升模型性能。

为了验证这一点,研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型,让它们为苹果设备生成优化的GPU内核,以加速PyTorch推理速度。

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第2张

为何选择苹果?答案很简单——因为它是全球最大硬件供应商(doge)

接下来,让我们深入了解研究人员是如何操作的:

实验设计

首先,在模型选择上,参与测试的模型包括:claude-sonnet-4、claude-opus-4、gpt-4o、gpt-4.1、gpt-5、o3、deepseek-v3和deepseek-r1。

其次,在测试输入上,研究使用了KernelBench数据集中定义的PyTorch模块,并选取了其中的215个模块进行测试。

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第3张

这些模块被分为三个等级:第一级为简单操作(如矩阵乘法、卷积);第二级为由第一级操作组成的多操作序列;第三级为完整的模型架构(如AlexNet、VGG)。

再次,在评估指标上,研究人员主要关注两个指标:一是AI生成内核的正确性,二是其相较于基线PyTorch的性能提升。

最后,研究使用的苹果硬件为Mac Studio (Apple M4 Max chip),基线为PyTorch eager mode

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第4张

实验执行

在准备完毕后,研究团队展开了测试。

测试流程如下:

  • 接收提示(prompt)和PyTorch代码;
  • 生成 Metal 内核;
  • 评估其是否在正确性(correctness^4)上与基线PyTorch一致;
  • 若编译失败或不正确,则将错误信息回传给智能体重试,最多允许重试5次。

研究者首先关注AI生成内核的正确性。

实验表明,正确性会随着尝试次数的增加而提升。以o3为例:首次尝试即有约60%的概率得到可用实现,到第5次尝试时,可用实现比例达到94%.

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第5张

此外,研究还发现推理模型擅长跨层级生成正确的内核,尽管非推理模型有时也能做到。

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第6张

那么,AI生成的内核表现如何呢?

实验结果相当惊艳,几乎每个模型都生成了一些比基线更快的内核。

例如,GPT-5在一个Mamba 25状态空间模型上实现了4.65倍的加速,主要通过内核融合来减少内核调用的开销并改善内存访问模式。

AI赋能苹果芯片:Metal内核优化与性能飞跃 AI生成 Metal内核 性能优化 苹果设备 第7张