当前位置:首页 > 科技资讯 > 正文

OpenAI GPT-OSS新突破:MXFP4让推理成本骤降75%

OpenAI在最新开源模型gpt-oss中引入的MXFP4数据类型,实现了推理成本惊人的75%降幅

更令人惊叹的是,MXFP4在将内存占用降低至同规模BF16模型的四分之一的同时,还将生成token的速度提升了整整4倍

这相当于,原本需要1200亿参数的庞大模型,如今只需80GB显存的显卡即可运行,甚至16GB显存的显卡也能轻松驾驭200亿参数的版本。

OpenAI GPT-OSS新突破:MXFP4让推理成本骤降75% MXFP4 GPT-OSS 推理成本 第1张

(注:显存容量通常会大于Checkpoint Size)

与以往的数据类型相比,MXFP4提供了极高的性价比,模型运行所需的硬件资源仅为之前的四分之一。

MXFP4的魔力何在?

在gpt-oss中,OpenAI将MXFP4量化应用于约90%的权重,旨在大幅削减模型运行成本。

量化为MXFP4后,大语言模型的内存占用仅为等规模BF16模型的1/4,且生成token的速度最高可提升4倍。

OpenAI GPT-OSS新突破:MXFP4让推理成本骤降75% MXFP4 GPT-OSS 推理成本 第2张

如何通过改变数据类型来降低模型运行成本?原理是这样的:

模型运行成本主要由权重存储内存带宽两部分组成。

前者指模型参数存放和占用的空间;后者则限制了模型推理时的数据读写速度和容量。

数据类型的变化将直接影响权重存储和内存带宽的占用。

例如,传统模型权重常用FP32(32位浮点数)存储,每个参数需占用4字节内存。

而MXFP4每个权重仅需半字节,其权重存储大小仅为FP32的1/8,从而大幅压缩了权重数据量。

这种压缩不仅减少了模型存储空间,还提高了数据读取和写入速度,进而加快了推理速度。

因此,通过改变数据类型即可实现推理成本的显著优化。