近日,OpenAI隆重推出了其首个开源语言模型系列——GPT-OSS,该系列包括两款强大的语言模型:GPT-OSS-120B和GPT-OSS-20B。这两款模型不仅支持完全可定制的功能,还提供了完整的思维链(CoT)及结构化输出,为用户提供更丰富的使用体验。
现在,用户可以在Hugging Face上免费下载GPT-OSS-120B和GPT-OSS-20B的权重,它们原生采用MXFP4量化格式。这一特性使得GPT-OSS-120B在80GB内存内即可运行,而GPT-OSS-20B则仅需16GB内存,极大降低了运行门槛。
下载链接:https://huggingface.co/collections/openai/gpt-oss-68911959590a...
Github地址:https://github.com/openai/gpt-oss
值得注意的是,几乎与GPT-OSS开源的同时,谷歌Deepmind宣布推出Genie 3,Anthropic也放出了Claude Opus 4.1。这一消息引发了网友们的广泛讨论,“我们生活在什么样的时代?”马斯克也转发了这条帖子,并配上了意味深长的文字和表情。
Claude Opus 4.1的最大亮点在于其编程性能的提升。在SWE-bench Verified编程评测中,其表现高达74.5%。GitHub上的开发者们普遍认为Opus 4.1在多文件代码重构等任务上表现优于其前代。此外,新模型的无害回复率也从上代的97.27%提升到了98.76%。
有用户第一时间将Claude Opus 4.1与OpenAI的GPT-OSS进行了编码能力方面的对比,实测结果显示Claude Opus 4.1最强且“出乎意料地稳”。此外,他提到GPT-OSS-120B用起来要谨慎,写代码特别不稳定;而GPT-OSS-20B效果反而不错。
据悉,GPT-OSS模型系列的训练结合了强化学习以及借鉴OpenAI最先进内部模型(包括O3和其他前沿系统)的技术,能以较低的成本实现强大的实际性能。
“GPT-OSS模型采用我们最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。”
OpenAI指出,每个模型都是一个Transformer,利用混合专家(MoE[2])来减少处理输入所需的活跃参数数量。GPT-OSS-120B每个令牌激活51亿个参数,而GPT-OSS-20B每个令牌激活36亿个参数,两款模型分别拥有1170亿和210亿个总参数。
这些模型采用交替的密集型和局部带状稀疏注意力模式,类似于GPT-3。为提高推理和内存效率,这些模型还使用分组多查询注意力,组大小为8。其使用旋转位置嵌入(RoPE[4])进行位置编码,原生支持长达128k的上下文长度。
两款模型的后训练过程与O4-mini类似,包括有监督微调阶段和高计算量的强化学习阶段。OpenAI表示,其目标是使模型与OpenAI模型规范对齐,并训练其在生成答案前应用思维链推理和工具使用能力。“通过采用与我们最先进的专有推理模型相同的技术,这些模型在后训练后展现出卓越的能力。”
与API中的OpenAI O系列推理模型类似,这两款开源模型支持低、中、高三种推理力度,可在延迟和性能之间进行权衡,开发者只需在系统消息中用一句话即可设置推理强度。
此外,OpenAI在以英语为主的纯文本数据集上训练这些模型,重点涵盖STEM、编程和通用知识领域。使用的分词器是用于OpenAI O4-mini和GPT-4o的分词器的超集——O200k_harmony,目前该分词器也同步开源了。
据介绍,这些模型基于灵活的Apache 2.0许可证发布,在推理任务上的表现优于同规模的开源模型,展现出强大的工具使用能力,并且经过优化,可在消费级硬件上高效部署。
其中,GPT-OSS-120B模型在核心推理基准测试上的表现接近OpenAI O4-mini,同时能在单块80GB GPU上高效运行。而GPT-OSS-20B模型在常见基准测试中的结果与OpenAI O3-mini相近,且仅需16GB内存就能在边缘设备上运行,非常适合设备端使用场景、本地推理或无需昂贵基础设施的快速迭代。
在工具使用、少样本函数调用、思维链推理(从Tau-Bench智能体评估套件的结果中可看出)和HealthBench方面,这两款模型也表现出色,甚至超过了OpenAI O1和GPT-4o等专有模型。
此前OpenAI已经公开了包括Whisper和CLIP在内的其他模型,但GPT-OSS模型是自GPT-2以来其推出的首批开源语言模型。
“从我的快速测试来看,GPT-OSS-120B看起来非常强大。”吴恩达第一时间评价道。还有网友表示,“这可能是OpenAI第一次不辜负它的名字。”
然而,Artificial Analysis发布的测试结果显示:“对OpenAI的GPT-OSS模型的独立基准测试显示,GPT-OSS-120B是美国最智能的开源模型之一。尽管其在智能水平上不及DeepSeek R1和Qwen3 235B,但在效率方面却具有优势。”
具体来说,尽管GPT-OSS-120B在得分上未能超过DeepSeek R1 0528的59分和Qwen3 235B 2507的64分,但其总参数和活跃参数数量均远小于这两款模型。DeepSeek R1的总参数为6710亿,活跃参数为370亿且原生以FP8精度发布。这使得其总文件大小(及内存需求)是GPT-OSS-120B的十倍以上。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439004.html