摘要:无需猜测,DeepSeek此番旨在全面赋能国产芯片生态。
DeepSeek于8月21日盛大推出V3.1版本,而官方在评论区的一条补充留言瞬间引发了广泛热议。
的确,官方在V3.1发布文章中对于算力支持的描述略显隐晦,故而选择直接在评论区补充说明。
一夜之间,这句简短的话语让A股市场集体沸腾。据财联社报道,全市场超过2800只个股上扬。从板块来看,算力股全线飘红,云天励飞等多股强势涨停。芯片股集体上扬,寒武纪涨停并创下历史新高,中芯国际大涨14%,海光信息同样涨停。
资本市场的热烈反响并非盲目追捧某一口号,而是洞察到了国产芯片在算力领域真正步入国际前沿的潜力。DeepSeek的此番言论,不仅被视为一次“技术换挡”的预兆,更是国内算力产业链罕见的共鸣时刻。
要理解“UE8M0 FP8”为何能掀起如此大的波澜,需将其分为两个核心部分:作为基础的“FP8”与作为关键的“UE8M0”。FP8本质上是一种将数字压缩至仅用8位(bit)存储的浮点格式,旨在通过减少数据位宽来降低AI大模型训练和推理对显存带宽的巨大压力。
然而,DeepSeek模型一直采用此格式却面临挑战:国内仅有极少数GPU厂商如摩尔线程原生支持FP8,其余普遍支持FP16,这意味着国产芯片在运行DeepSeek模型时性能至少折损一半。这解释了为何更多企业倾向于选用英伟达芯片,因为过去国产芯片在性能上已非‘满血’状态,加之本地调配能力可能不足,进一步降低性能。
图|豆包AI生成
有AI infra企业向凤凰网科技透露,解决方案在于软件层面的突破。国内已有企业如清程极智专注于为国产芯片适配DeepSeek软件,旨在提升国产芯片在运用DeepSeek时的性能。
需补充的是,纯粹FP8(如E4M3或E5M2格式)在动态范围与精度上存在固有权衡,处理极端数据大小时仍可能遭遇精度损失或数值溢出。通俗而言,数据压缩虽能大幅减小体积,但可能损害质量,如同衣物压缩后易皱。
真正的突破源自由Meta、谷歌等科技巨头推动的开放计算项目(OCP)所制定的MX(Microscaling)格式。该格式不再采用统一的大缩放因子,而是将张量细分为微小数据块,并为每块配备轻量级8位缩放因子,从而在保持8位存储效率的同时,将动态范围扩大数十倍。通俗解释,即分块打包衣物。
回到DeepSeek此次发布的“UE8M0”,正是MX格式中为每个数据块指定的关键缩放因子格式。它采用极为高效的8位指数表示法:“U”代表无符号(Unsigned),意味着它永远为正数,无需符号位;“E8”代表全部8个比特用于表示指数(Exponent);“M0”则无尾数(Mantissa)。比喻而言,UE8M0犹如一个“仅调档位、不调微刻度”的超级节能灯泡开关,如同AI芯片中的快进键。
这种‘全指数’设计带来两大根本优势:首先,硬件在执行缩放时异常简便快捷,仅需简单整数次幂运算(相当于直接移动二进制小数点),完全规避复杂浮点乘法与舍入操作,极大缩短关键计算路径,提升能效。其次,其巨大动态范围(从2⁻¹²⁷至2¹²⁸)确保任何数据块均能恰到好处地缩放至FP8表示范围内,几乎完全避免数值过大溢出或过小被舍入为零的信息损失问题,显著降低了错误率。
因此,UE8M0 FP8让国产芯片在跑大模型时——更快、更省、更能扛大数。特别是运行DeepSeek模型时表现尤为突出。
尽管许多现有国产AI加速器未原生支持完整E4M3/E5M2 FP8计算单元,但其架构正逐步向支持块缩放(Block Scaling)的MX格式演进。作为缩放因子,UE8M0格式极简无需复杂浮点乘法器即可实现降低硬件实现门槛。
更重要的是它为突破‘内存墙’提供最优解:相较于传统为每个数据块配备一个32位FP32缩放因子UE8M0仅需追加8位即可高效管理32个FP8数据带宽开销骤降75%。对于HBM带宽仍处于追赶阶段的国产芯片而言这是一项通过数据格式创新实现‘带宽减负’的架构级优化成为下一代竞争中实现效能跃升的关键技术路径。因此这不仅是单纯的技术兼容更是一次在主流标准框架内通过前沿设计实现差异化竞争力的精准卡位。
从产业层面看DeepSeek的此次表态不只是一种技术选择更是一次产业生态的确认。试想中国最优秀的大模型产品与英伟达如此紧密捆绑本身并非乐观之事而DeepSeek此次发布可视为一种渐进式解绑官方主动为国产芯片发展生态站台。
UE8M0 FP8的落地也意味着国产算力厂商已在浮点格式、编译器优化、训练框架适配等环节实现全栈打通这背后意味着长期积累的软硬件协同终于显现成果。
至于下一代国产芯片的具体归属凤凰网科技此前了解到目前成熟的头部国产芯片公司其实都与DeepSeek有所接触。此外不少公司本身即支持FP8除了摩尔线程外涨势最猛的寒武纪其旗下思元590及最新690系列均获支持。凤凰网科技还了解到摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算现在还能很好地支持UE8M0 FP8 Scale利用硬件原生FP8相较于传统FP16计算能实现两倍的浮点算力提升、访存和通信带宽效率提升以及存储容量利用率提升同时最优化张量表达精度。
因此无需猜测DeepSeek此番旨在全面赋能国产芯片生态。其背后是对未来大模型算力效率的重新定义也是国产芯片厂商获得国际话语权的起点。资本市场的集体狂欢既包含情绪成分也传递出一个明确信号:中国芯片正迎来前所未有的机遇而这一次它们有机会真正站在技术浪潮的前沿。
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439992.html