当前位置:首页 > 科技资讯 > 正文

OpenAI开源新纪元:GPT-OSS震撼登场

OpenAI 抛出开源「核弹」,两款全新模型gpt-oss 20B和120B同时面世。它们不仅性能媲美o3-mini和o4-mini,更能在消费级显卡乃至手机上流畅运行。自GPT-2以来,OpenAI终于兑现了开源承诺。

它来了!它来了!

就在今晚,OpenAI携两款全新开源模型震撼登场!

正如数日前泄露的消息,它们分别是总参数1170亿,激活参数51亿「gpt-oss-120b」总参数210亿,激活参数36亿「gpt-oss-20b」

OpenAI再次拥抱开源时代。

OpenAI开源新纪元:GPT-OSS震撼登场 OpenAI GPT-OSS 开源模型 o3-mini o4-mini 第1张

在核心推理基准测试中,120B模型的表现与OpenAI o4-mini相当,且能在单张80GB显存的GPU上高效运行(如H100)。

gpt-oss-20b适用于低延迟、本地或专业场景。

在常用基准测试中,20B模型的表现与OpenAI o3-mini类似,且能在仅配备16GB显存的边缘设备上运行。

此外,两款模型在工具使用、少样本函数调用、CoT推理及HealthBench评测中表现卓越,甚至超越OpenAI o1和GPT-4o等专有模型。

宽松的Apache 2.0许可证:自由构建,无copyleft限制或专利风险——是实验、定制及商业化部署的理想选择。

可配置的推理投入:根据用户具体用例和延迟需求,轻松调整推理投入(低、中、高)。

完整的思维链:可完整访问模型推理过程,简化调试并提升输出结果的可信度。

支持微调:支持参数级微调,根据特定用例对模型进行完全定制。

智能体能力:利用模型原生函数调用、网页浏览、Python代码执行及结构化输出等功能。

原生MXFP4量化:训练时,模型的混合专家(MoE)层采用原生MXFP4精度,使gpt-oss-120b在单张H100 GPU上运行,而gpt-oss-20b仅需16GB内存。

值得一提的是,OpenAI还特意打造了一个playground网站供在线体验。

OpenAI开源新纪元:GPT-OSS震撼登场 OpenAI GPT-OSS 开源模型 o3-mini o4-mini 第2张

体验地址:https://gpt-oss.com/

OpenAI开源新纪元:GPT-OSS震撼登场 OpenAI GPT-OSS 开源模型 o3-mini o4-mini 第3张

GitHub项目:https://github.com/openai/gpt-oss
Hugging Face(120B):https://huggingface.co/openai/gpt-oss-120b
Hugging Face(20B):https://huggingface.co/openai/gpt-oss-20b

自GPT-2以来,首次开源

gpt-oss系列模型是OpenAI自GPT-2以来首次开源的语言模型。

今日,OpenAI同步发布了34页技术报告,模型采用最先进的预训练与后训练技术。

OpenAI开源新纪元:GPT-OSS震撼登场 OpenAI GPT-OSS 开源模型 o3-mini o4-mini 第4张

模型卡:https://cdn.openai.com/pdf...

预训练与模型架构

相较于先前开源的Whisper和CLIP,gpt-oss模型在推理能力、效率及广泛部署环境的实用性上更胜一筹。

每个模型均采用Transformer架构,并融入MoE设计,减少处理输入时的激活参数量。

如上所述,gpt-oss-120b总参数为1170亿,每token激活51亿参数;gpt-oss-20b总参数为210亿,每token激活36亿参数。

此外,模型借鉴了GPT-3设计理念,采用交替的密集注意力和局部带状稀疏注意力模式。

OpenAI开源新纪元:GPT-OSS震撼登场 OpenAI GPT-OSS 开源模型 o3-mini o4-mini 第5张

为提升推理和内存效率,模型采用分组多查询注意力机制(组大小为8),以及旋转位置编码(RoPE),原生支持128k上下文。

gpt-oss模型的训练数据以「英语」为主,聚焦STEM、编程及通用知识领域。

OpenAI采用o2...分词器对数据进行分词,它是OpenAI o4...所用分词器的「超集」。

...分词器同步开源。

...