GPU编程领域正迎来一场颠覆性的变革。
英伟达正式发布了最新版CUDA 13.1,官方直接将其定义为自2006年问世以来最显著的飞跃。
核心革新在于推出了全新的CUDA Tile编程模型,使得开发者能够利用Python编写GPU内核,仅用15行代码即可媲美200行CUDA C++代码的性能表现。
消息一经公布,芯片界传奇人物Jim Keller立即提出疑问:
英伟达是否亲手瓦解了CUDA的“护城河”?如果英伟达也转向Tile模型,AI内核将更便捷地移植到其他硬件平台。
Jim Keller曾参与设计AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片,被誉为“硅仙人”,他的见解在行业内具有极高权重。
那么问题来了:CUDA此次究竟带来了哪些改变?为何会被视为“自毁长城”?
要理解这次更新的重要性,首先需回顾传统CUDA编程的复杂之处。
过去20年间,CUDA一直沿用SIMT(单指令多线程)模型,开发者在编码时必须手动处理线程索引、线程块、共享内存布局和线程同步等细节,每一项都需精心调配。
若要充分释放GPU性能,特别是利用Tensor Core等专用模块,更需要深厚的经验与技术积累。
CUDA Tile彻底颠覆了这一模式:
开发者不再需要逐线程编写执行路径,而是将数据组织为Tile(瓦片),并定义在这些Tile上执行的运算。至于如何将这些运算映射到GPU的线程、Warp和Tensor Core上,则由编译器和运行时自动处理。
这类似于NumPy在Python中的作用。
英伟达为此构建了两个核心组件:
CUDA Tile IR是一套全新的虚拟指令集,它在高级语言和硬件之间添加了一层抽象,确保基于Tile编写的代码能够在不同代际的GPU上运行,从当前的Blackwell到未来架构都能保持兼容。
cuTile Python则是面向开发者的接口,允许直接使用Python编写GPU内核,将门槛从“HPC专家”大幅降低至“任何会写Python的数据科学家均可操作”。
此外,这次更新还带来了一系列针对Blackwell架构的性能优化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功能;
新增的Grouped GEMM API在MoE(混合专家模型)场景下可实现高达4倍的加速;
cuSOLVER的批处理特征分解在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升;
开发者工具Nsight Compute新增了对CUDA Tile内核的性能分析支持,能够将性能指标直接映射回cuTile Python源代码。
目前CUDA Tile仅支持Blackwell架构(计算能力10.x和12.x),开发重点集中在AI算法上。英伟达表示未来将扩展到更多架构,并推出C++实现。
那么Jim Keller为何认为英伟达可能“终结了自己的护城河”?
关键在于Tile编程模型并非英伟达独有。AMD、Intel以及其他AI芯片厂商的硬件,在底层架构上同样能够支持基于Tile的编程抽象。
过去CUDA难以移植,很大程度上是因为SIMT模型与英伟达硬件深度绑定,开发者需要针对具体GPU架构手动优化代码。这些代码转移到其他硬件上时,要么无法运行,要么性能显著下降。
但Tile模型天然具备更高的抽象层次。当开发者习惯了“只定义Tile运算,硬件细节交由编译器”的思维方式后,理论上同一套算法逻辑更容易适配到其他支持Tile编程的硬件上。
正如Jim Keller所说:“AI内核将更容易移植。”
不过英伟达也预留了后手,CUDA Tile IR提供了跨代兼容性,但这种兼容性建立在CUDA平台之上。
开发者编写的代码确实更易移植,但移植目标主要是英伟达自家的不同代GPU,而非竞争对手的硬件。
从这个角度看,CUDA代码可以从Blackwell无缝迁移到下一代英伟达GPU,但要迁移到AMD或Intel平台,仍需重写。
无论护城河是加深还是削弱,有一点是确定的:GPU编程的门槛正在大幅降低。
过去能熟练驾驭CUDA的开发者是稀缺资源,会写Python的人比比皆是,但能将代码优化到充分发挥Tensor Core性能的专家却凤毛麟角。
CUDA Tile和cuTile Python打破了这一瓶颈。英伟达在开发者博客中提到,一个15行的Python内核性能可媲美200行手动优化的CUDA C++代码。
大量数据科学家和AI研究者从此能够直接上手编写高性能GPU代码,无需再依赖HPC专家进行优化。
参考链接:
[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware
[2]https://x.com/jimkxa/status/1997732089480024498
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223206.html