OpenAI在最新开源模型gpt-oss中引入的MXFP4数据类型,实现了推理成本惊人的75%降幅!
更令人惊叹的是,MXFP4在将内存占用降低至同规模BF16模型的四分之一的同时,还将生成token的速度提升了整整4倍。
这相当于,原本需要1200亿参数的庞大模型,如今只需80GB显存的显卡即可运行,甚至16GB显存的显卡也能轻松驾驭200亿参数的版本。
(注:显存容量通常会大于Checkpoint Size)
与以往的数据类型相比,MXFP4提供了极高的性价比,模型运行所需的硬件资源仅为之前的四分之一。
在gpt-oss中,OpenAI将MXFP4量化应用于约90%的权重,旨在大幅削减模型运行成本。
量化为MXFP4后,大语言模型的内存占用仅为等规模BF16模型的1/4,且生成token的速度最高可提升4倍。
如何通过改变数据类型来降低模型运行成本?原理是这样的:
模型运行成本主要由权重存储和内存带宽两部分组成。
前者指模型参数存放和占用的空间;后者则限制了模型推理时的数据读写速度和容量。
数据类型的变化将直接影响权重存储和内存带宽的占用。
例如,传统模型权重常用FP32(32位浮点数)存储,每个参数需占用4字节内存。
而MXFP4每个权重仅需半字节,其权重存储大小仅为FP32的1/8,从而大幅压缩了权重数据量。
这种压缩不仅减少了模型存储空间,还提高了数据读取和写入速度,进而加快了推理速度。
因此,通过改变数据类型即可实现推理成本的显著优化。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439247.html