当前位置:首页 > 科技资讯 > 正文

AI自动生成Metal内核在苹果设备上的性能突破研究

人工智能能否自动生成苹果芯片的Metal内核,并且性能超越官方实现?最新研究给出了肯定答案。

Gimlet Labs发布的最新成果显示,在苹果设备上,AI不仅可以自动生成Metal内核,而且相比基线内核,在PyTorch推理速度上实现了87%的提升。

更令人震惊的是,AI生成的Metal内核在测试的215个PyTorch模块中平均加速达到1.87倍,部分工作负载甚至比基准快数百倍

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第1张

这是否意味着AI正在推动苹果AI技术迈向新高度?

利用AI为苹果设备生成高性能内核

核心结论是:通过AI自动实现内核优化,无需修改用户代码、引入新框架或进行移植,即可显著提升模型性能。

为验证这一点,研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型,让它们为苹果设备生成优化的GPU内核,以加速PyTorch推理。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第2张

为何选择苹果设备?原因在于其作为全球领先硬件供应商的广泛影响力。

接下来,让我们详细解析研究人员的实验方法:

实验配置

首先,在模型选择上,测试涵盖了claude-sonnet-4、claude-opus-4;gpt-4o、gpt-4.1、gpt-5、o3;deepseek-v3、deepseek-r1等多个先进模型。

其次,测试输入基于KernelBench数据集定义的PyTorch模块,从中选取215个模块进行评测。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第3张

这些模块分为三个层级:第一级包含简单操作(如矩阵乘法、卷积);第二级由第一级操作组合成的多操作序列;第三级则是完整模型架构(如AlexNet、VGG)。

再次,评估指标聚焦两方面:一是AI生成内核的正确性,二是其相较于基准PyTorch的性能增益。

最后,实验硬件采用Mac Studio (Apple M4 Max芯片),基线为PyTorch eager mode(这是关键比较点)。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第4张

实验过程与结果

在准备就绪后,研究团队展开系统测试。

测试流程如下:接收提示(prompt)和PyTorch代码;生成Metal内核;评估其正确性是否与基准PyTorch一致;如果编译失败或结果错误,则将错误信息反馈给模型重试,最多允许5次尝试。

研究者首先关注AI生成内核的正确性。实验显示,正确性随尝试次数增加而提高。以o3模型为例:首次尝试约有60%的概率生成可用实现,到第5次尝试时可用比例升至94%

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第5张

此外,研究还发现推理模型擅长跨层级生成正确内核,尽管非推理模型也能部分实现。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第6张

那么,AI生成的内核性能如何?结果令人印象深刻,几乎所有模型都生成了比基准更快的内核。

例如,GPT-5在一个Mamba 25状态空间模型上实现了4.65倍加速,主要通过内核融合来减少调用开销并优化内存访问模式。

在某些案例中,o3甚至将延迟降低了超过9000倍!总体而言,GPT-5平均带来约20%的加速,其他模型稍逊。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第7张

然而,GPT并非在所有问题上都最优。研究发现,GPT-5在34%的问题上生成最优解,但在另外30%的问题上,其他模型的解决方案更优。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第8张

这意味着没有单一模型能在所有问题上生成最优内核。因此,组合多个模型有望提高生成最优内核的概率。

基于此,研究人员进行了智能体群体实验(Agentic Swarm)。

智能体群体实验的进阶探索

正如预期,智能体群体策略相较于单个模型实现了更高的性能提升。与GPT-5相比,智能体群体在各层级平均加速31%,在Level 2问题上加速42%

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第9张

即使在缺乏上下文信息的情况下(仅输入问题和提示),智能体群体已表现优异。研究人员进一步尝试提供更多上下文以获取更优内核。

额外上下文主要包括两个来源:一是CUDA实现(由于Nvidia GPU普及,通常有优化参考);二是M4芯片上gputrace的性能分析信息(包含Apple Script捕获的摘要、内存和时间线视图)。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第10张

在具体实施中,研究者将截图处理任务分配给子智能体,由其为主模型提供性能优化提示。主智能体首先生成初步实现,然后进行性能分析和计时,再将截图传给子智能体生成优化提示。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第11张

实验表明,在上下文配置方面同样没有“单一最佳”方案。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第12张

性能方面,加入额外上下文实现了平均1.87倍的加速,而普通智能体仅实现1.31倍平均加速,额外上下文将提升幅度扩大了三倍!

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第13张

性能提升的深层讨论与背景分析

为深入理解,有必要回顾相关背景知识。在PyTorch中,用户通常调用如Sequential、ReLU等函数。执行时,PyTorch先将函数分解为张量运算(如矩阵乘法),再交由GPU处理。此时,GPU内核负责将这些数学操作转换为低级并行指令,其性能至关重要,类似C编译器的作用。

本研究的核心是让AI自动化原本需工程师手写的内核优化,并测试其性能。但问题在于:苹果硬件对PyTorch的优化不如英伟达CUDA成熟,因此直接对比MPS后端原生实现和AI生成内核可能不公。

许多网友指出,研究所用基线为eager mode,这通常仅用于训练调试或指标计算,而非实际部署。真实部署中,模型常被导出为ONNX并编译为设备原生格式(如Metal),效率远高于PyTorch eager mode。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化 苹果M4芯片 PyTorch加速 第14张

因此,无论内核如何生成,优化后的GPU内核都会比未优化的PyTorch推理快得多。对比调试内核与eager模式可能略显不寻常。

对此,研究人员回应:本研究旨在展示AI自动生成内核的可行性,而非部署环境的极限性能。目标是自动化内核工程流程,减少开发投入,重点在于原型验证而非性能绝对值。

这一研究方向引发了广泛思考:AI能否在硬件优化中扮演更关键角色?

参考链接

[1]https://gimletlabs.ai/blog/ai-generated-metal-kernels#user-content-fn-4

[2]https://news.ycombinator.com/item?id=45118111

[3]https://en.wikipedia.org/wiki/Compute_kernel

[4]https://github.com/ScalingIntelligence/KernelBench/