当前位置:首页 > 科技资讯 > 正文

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器

DeepSeek v3.2引入了一项未被技术论文提及的新特性,仅在官方公告中简要介绍,却引发了广泛关注。

开源TileLang版本算子的关注度甚至超越了新的稀疏注意力机制DSA,这一点从社交媒体的转发量中可见一斑。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第1张

海外技术社区也观察到DeepSeek采用了TileLang而非OpenAI开发的Triton语言。

有经验的开发者称赞TileLang是一种设计优雅的语言,仅用不到100行代码就能实现比Flash Attention 2原版快30%的注意力机制。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第2张

那么,TileLang究竟是什么?它为何能吸引如此多的目光?

首先,TileLang是一种专为开发GPU内核而设计的领域专用语言,性能上可与英伟达CUDA相媲美,DeepSeek官方推荐使用此语言进行实验,因其在调试便捷性和快速迭代方面具有优势。

更重要的是,TileLang与国产算力生态高度兼容,连华为昇腾都迅速宣布对TileLang提供支持。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第3张

在几周前的华为全联接大会2025开发者日上,TileLang团队成员董宇骐展示了用TileLang实现FlashAttention算子的开发过程,代码量从500多行缩减至80行,同时保持了与官方版本相当的性能。

此外,TileLang团队成员王磊沐曦集成电路的高级总监董兆华在同一圆桌沙龙中探讨了沐曦GPU与TileLang的适配问题。

DeepSeek选择TileLang的原因

DeepSeek与TileLang首次共同亮相是在6月的北京智元大会。

曾在DeepSeek实习的北大博士袁境阳在报告中指出“TileLang的算子实现速度更快”。

TileLang的发起人之一、北大博士研究生王磊随后专门发帖感谢DeepSeek尝试使用他们的语言。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第4张

TileLang由北京大学团队主导开发,核心成员包括王磊、董宇骐,以及北大计算机学院副研究员、博士生导师杨智

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第5张

2025年1月,TileLang在GitHub上正式开源,截至目前已收获1.9k星标。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第6张

简而言之,Tile语言(tile-lang)是一种简洁的领域专用语言,旨在简化高性能GPU/CPU内核的开发。tile-lang采用类Python语法,并基于TVM构建底层编译器架构,使开发者能专注于提升生产力,而不必牺牲实现峰值性能所需的底层优化。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第7张

王磊在7月HyperAI超神经主办的Meet AI Compiler技术沙龙上分享了TileLang的核心设计理念:

将调度空间(包括线程绑定、内存布局、张量化和流水线等)与数据流解耦,并封装为一组可自定义的注解和原语。这种方法让用户能聚焦于内核的数据流本身,而将大部分优化任务交由编译器处理。

TileLang将“Tile”作为编程模型的核心概念,通过显式的Tile抽象,开发者可以直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang提供三个不同层次的编程接口,以满足各类开发者的需求。

初学者可使用硬件无关的高层接口,专注于算法逻辑,无需关注底层细节。

有经验的开发者可使用Tile Library,其中包含针对多种硬件架构优化的预定义操作。

对于追求极致性能的专家用户,TileLang还提供线程原语级别的控制,允许直接操作线程同步、内存合并等底层特性。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第8张

DeepSeek显然属于追求极致性能的专家用户行列。根据v3.2公告,早期DeepSeek团队利用TileLang快速开发原型,随后采用更底层的方法进一步优化性能。

v3.2论文中提到,通过在内核层面共享k-v以提升计算效率,使得DSA的闪电索引器机制(lightning indexer)运行速度远超传统实现。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第9张

TileLang的文档中也介绍了相关技术,即在计算过程中缓存中间数据,其速度远快于全局内存。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第10张

TileLang与DeepSeek的双向奔赴

更早之前,在DeepSeek连续一周发布开源代码库的首日,王磊就曾向DeepSeek团队推荐TileLang语言。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第11张

随后,TileLang以DeepSeek当日发布的FlashMLA内核作为评测基准,在H100上的MLA解码速度测试中,TileLang编写的内核表现与FlashMLA相当。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第12张

在最新的DeepSeek v3.2发布后,王磊发帖致敬DeepSeek敢于采用新编程语言开发核心产品的勇气。

同时,DeepSeek v3.2也证实了TileLang确实可用于模型训练。

DeepSeek v3.2集成TileLang:革新GPU内核开发的开源利器  TileLang GPU内核开发 国产算力适配 第13张

DeepSeek V3.2技术报告:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang:https://github.com/tile-ai/tilelang

参考链接:

[1]https://x.com/Lei_Wang_1999/status/1932331703747698786

[2]https://x.com/nathancgy4/status/1972613835598299245

[3]https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519

[4]https://hub.baai.ac.cn/view/46173