当前位置：首页 > 科技资讯 > 正文

AI自动生成Metal内核在苹果设备上的性能突破研究

主机测评网
科技资讯
2025-12-28
758

人工智能能否自动生成苹果芯片的Metal内核，并且性能超越官方实现？最新研究给出了肯定答案。

Gimlet Labs发布的最新成果显示，在苹果设备上，AI不仅可以自动生成Metal内核，而且相比基线内核，在PyTorch推理速度上实现了87%的提升。

更令人震惊的是，AI生成的Metal内核在测试的215个PyTorch模块中平均加速达到1.87倍，部分工作负载甚至比基准快数百倍。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第1张

这是否意味着AI正在推动苹果AI技术迈向新高度？

利用AI为苹果设备生成高性能内核

核心结论是：通过AI自动实现内核优化，无需修改用户代码、引入新框架或进行移植，即可显著提升模型性能。

为验证这一点，研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型，让它们为苹果设备生成优化的GPU内核，以加速PyTorch推理。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第2张

为何选择苹果设备？原因在于其作为全球领先硬件供应商的广泛影响力。

接下来，让我们详细解析研究人员的实验方法：

实验配置

首先，在模型选择上，测试涵盖了claude-sonnet-4、claude-opus-4；gpt-4o、gpt-4.1、gpt-5、o3；deepseek-v3、deepseek-r1等多个先进模型。

其次，测试输入基于KernelBench数据集定义的PyTorch模块，从中选取215个模块进行评测。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第3张

这些模块分为三个层级：第一级包含简单操作（如矩阵乘法、卷积）；第二级由第一级操作组合成的多操作序列；第三级则是完整模型架构（如AlexNet、VGG）。

再次，评估指标聚焦两方面：一是AI生成内核的正确性，二是其相较于基准PyTorch的性能增益。

最后，实验硬件采用Mac Studio (Apple M4 Max芯片)，基线为PyTorch eager mode（这是关键比较点）。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第4张

实验过程与结果

在准备就绪后，研究团队展开系统测试。

测试流程如下：接收提示（prompt）和PyTorch代码；生成Metal内核；评估其正确性是否与基准PyTorch一致；如果编译失败或结果错误，则将错误信息反馈给模型重试，最多允许5次尝试。

研究者首先关注AI生成内核的正确性。实验显示，正确性随尝试次数增加而提高。以o3模型为例：首次尝试约有60%的概率生成可用实现，到第5次尝试时可用比例升至94%。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第5张

此外，研究还发现推理模型擅长跨层级生成正确内核，尽管非推理模型也能部分实现。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第6张

那么，AI生成的内核性能如何？结果令人印象深刻，几乎所有模型都生成了比基准更快的内核。

例如，GPT-5在一个Mamba 25状态空间模型上实现了4.65倍加速，主要通过内核融合来减少调用开销并优化内存访问模式。

在某些案例中，o3甚至将延迟降低了超过9000倍！总体而言，GPT-5平均带来约20%的加速，其他模型稍逊。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第7张

然而，GPT并非在所有问题上都最优。研究发现，GPT-5在34%的问题上生成最优解，但在另外30%的问题上，其他模型的解决方案更优。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第8张

这意味着没有单一模型能在所有问题上生成最优内核。因此，组合多个模型有望提高生成最优内核的概率。

基于此，研究人员进行了智能体群体实验（Agentic Swarm）。

智能体群体实验的进阶探索

正如预期，智能体群体策略相较于单个模型实现了更高的性能提升。与GPT-5相比，智能体群体在各层级平均加速31%，在Level 2问题上加速42%。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第9张

即使在缺乏上下文信息的情况下（仅输入问题和提示），智能体群体已表现优异。研究人员进一步尝试提供更多上下文以获取更优内核。

额外上下文主要包括两个来源：一是CUDA实现（由于Nvidia GPU普及，通常有优化参考）；二是M4芯片上gputrace的性能分析信息（包含Apple Script捕获的摘要、内存和时间线视图）。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第10张

在具体实施中，研究者将截图处理任务分配给子智能体，由其为主模型提供性能优化提示。主智能体首先生成初步实现，然后进行性能分析和计时，再将截图传给子智能体生成优化提示。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第11张

实验表明，在上下文配置方面同样没有“单一最佳”方案。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第12张

性能方面，加入额外上下文实现了平均1.87倍的加速，而普通智能体仅实现1.31倍平均加速，额外上下文将提升幅度扩大了三倍！

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第13张

性能提升的深层讨论与背景分析

为深入理解，有必要回顾相关背景知识。在PyTorch中，用户通常调用如Sequential、ReLU等函数。执行时，PyTorch先将函数分解为张量运算（如矩阵乘法），再交由GPU处理。此时，GPU内核负责将这些数学操作转换为低级并行指令，其性能至关重要，类似C编译器的作用。

本研究的核心是让AI自动化原本需工程师手写的内核优化，并测试其性能。但问题在于：苹果硬件对PyTorch的优化不如英伟达CUDA成熟，因此直接对比MPS后端原生实现和AI生成内核可能不公。

许多网友指出，研究所用基线为eager mode，这通常仅用于训练调试或指标计算，而非实际部署。真实部署中，模型常被导出为ONNX并编译为设备原生格式（如Metal），效率远高于PyTorch eager mode。

AI自动生成Metal内核在苹果设备上的性能突破研究 AI生成内核 Metal优化苹果M4芯片 PyTorch加速第14张

因此，无论内核如何生成，优化后的GPU内核都会比未优化的PyTorch推理快得多。对比调试内核与eager模式可能略显不寻常。

对此，研究人员回应：本研究旨在展示AI自动生成内核的可行性，而非部署环境的极限性能。目标是自动化内核工程流程，减少开发投入，重点在于原型验证而非性能绝对值。

这一研究方向引发了广泛思考：AI能否在硬件优化中扮演更关键角色？

参考链接

[1]https://gimletlabs.ai/blog/ai-generated-metal-kernels#user-content-fn-4

[2]https://news.ycombinator.com/item?id=45118111

[3]https://en.wikipedia.org/wiki/Compute_kernel

[4]https://github.com/ScalingIntelligence/KernelBench/

服务器教程高防服务器

本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20251213518.html

AI自动生成Metal内核在苹果设备上的性能突破研究

利用AI为苹果设备生成高性能内核

实验配置

实验过程与结果

智能体群体实验的进阶探索

性能提升的深层讨论与背景分析

C语言树直径算法详解（从零开始掌握树的最长路径计算）

AI聊天机器人的黑暗面：从情感支持到犯罪帮凶的警示

AI自动生成Metal内核在苹果设备上的性能突破研究

利用AI为苹果设备生成高性能内核

实验配置

实验过程与结果

智能体群体实验的进阶探索

性能提升的深层讨论与背景分析

C语言树直径算法详解（从零开始掌握树的最长路径计算）

AI聊天机器人的黑暗面：从情感支持到犯罪帮凶的警示

相关文章