当前位置：首页 > 科技资讯 > 正文

OpenAI GPT-OSS新突破：MXFP4让推理成本骤降75%

OpenAI在最新开源模型gpt-oss中引入的MXFP4数据类型，实现了推理成本惊人的75%降幅！

更令人惊叹的是，MXFP4在将内存占用降低至同规模BF16模型的四分之一的同时，还将生成token的速度提升了整整4倍。

这相当于，原本需要1200亿参数的庞大模型，如今只需80GB显存的显卡即可运行，甚至16GB显存的显卡也能轻松驾驭200亿参数的版本。

OpenAI GPT-OSS新突破：MXFP4让推理成本骤降75% MXFP4 GPT-OSS 推理成本第1张

（注：显存容量通常会大于Checkpoint Size）

与以往的数据类型相比，MXFP4提供了极高的性价比，模型运行所需的硬件资源仅为之前的四分之一。

MXFP4的魔力何在？

在gpt-oss中，OpenAI将MXFP4量化应用于约90%的权重，旨在大幅削减模型运行成本。

量化为MXFP4后，大语言模型的内存占用仅为等规模BF16模型的1/4，且生成token的速度最高可提升4倍。

OpenAI GPT-OSS新突破：MXFP4让推理成本骤降75% MXFP4 GPT-OSS 推理成本第2张

如何通过改变数据类型来降低模型运行成本？原理是这样的：

模型运行成本主要由权重存储和内存带宽两部分组成。

前者指模型参数存放和占用的空间；后者则限制了模型推理时的数据读写速度和容量。

数据类型的变化将直接影响权重存储和内存带宽的占用。

例如，传统模型权重常用FP32（32位浮点数）存储，每个参数需占用4字节内存。

而MXFP4每个权重仅需半字节，其权重存储大小仅为FP32的1/8，从而大幅压缩了权重数据量。

这种压缩不仅减少了模型存储空间，还提高了数据读取和写入速度，进而加快了推理速度。

因此，通过改变数据类型即可实现推理成本的显著优化。

本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439247.html