当前位置：首页 > 科技资讯 > 正文

OpenAI发布开源语言模型GPT-OSS，挑战DeepSeek R1

主机测评网
科技资讯
2026-04-20
776

近日，OpenAI隆重推出了其首个开源语言模型系列——GPT-OSS，该系列包括两款强大的语言模型：GPT-OSS-120B和GPT-OSS-20B。这两款模型不仅支持完全可定制的功能，还提供了完整的思维链（CoT）及结构化输出，为用户提供更丰富的使用体验。

现在，用户可以在Hugging Face上免费下载GPT-OSS-120B和GPT-OSS-20B的权重，它们原生采用MXFP4量化格式。这一特性使得GPT-OSS-120B在80GB内存内即可运行，而GPT-OSS-20B则仅需16GB内存，极大降低了运行门槛。

下载链接：https://huggingface.co/collections/openai/gpt-oss-68911959590a...

Github地址：https://github.com/openai/gpt-oss

值得注意的是，几乎与GPT-OSS开源的同时，谷歌Deepmind宣布推出Genie 3，Anthropic也放出了Claude Opus 4.1。这一消息引发了网友们的广泛讨论，“我们生活在什么样的时代？”马斯克也转发了这条帖子，并配上了意味深长的文字和表情。

OpenAI发布开源语言模型GPT-OSS，挑战DeepSeek R1 GPT-OSS 开源语言模型 DeepSeek 人工智能第1张

Claude Opus 4.1的最大亮点在于其编程性能的提升。在SWE-bench Verified编程评测中，其表现高达74.5%。GitHub上的开发者们普遍认为Opus 4.1在多文件代码重构等任务上表现优于其前代。此外，新模型的无害回复率也从上代的97.27%提升到了98.76%。

有用户第一时间将Claude Opus 4.1与OpenAI的GPT-OSS进行了编码能力方面的对比，实测结果显示Claude Opus 4.1最强且“出乎意料地稳”。此外，他提到GPT-OSS-120B用起来要谨慎，写代码特别不稳定；而GPT-OSS-20B效果反而不错。

公开训练过程，

采用先进推理模型技术

据悉，GPT-OSS模型系列的训练结合了强化学习以及借鉴OpenAI最先进内部模型（包括O3和其他前沿系统）的技术，能以较低的成本实现强大的实际性能。

“GPT-OSS模型采用我们最先进的预训练和后训练技术进行训练，特别注重推理能力、效率以及在各种部署环境中的实际可用性。”

OpenAI指出，每个模型都是一个Transformer，利用混合专家（MoE[2]）来减少处理输入所需的活跃参数数量。GPT-OSS-120B每个令牌激活51亿个参数，而GPT-OSS-20B每个令牌激活36亿个参数，两款模型分别拥有1170亿和210亿个总参数。

这些模型采用交替的密集型和局部带状稀疏注意力模式，类似于GPT-3。为提高推理和内存效率，这些模型还使用分组多查询注意力，组大小为8。其使用旋转位置嵌入（RoPE[4]）进行位置编码，原生支持长达128k的上下文长度。

两款模型的后训练过程与O4-mini类似，包括有监督微调阶段和高计算量的强化学习阶段。OpenAI表示，其目标是使模型与OpenAI模型规范对齐，并训练其在生成答案前应用思维链推理和工具使用能力。“通过采用与我们最先进的专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。”

与API中的OpenAI O系列推理模型类似，这两款开源模型支持低、中、高三种推理力度，可在延迟和性能之间进行权衡，开发者只需在系统消息中用一句话即可设置推理强度。

此外，OpenAI在以英语为主的纯文本数据集上训练这些模型，重点涵盖STEM、编程和通用知识领域。使用的分词器是用于OpenAI O4-mini和GPT-4o的分词器的超集——O200k_harmony，目前该分词器也同步开源了。

据介绍，这些模型基于灵活的Apache 2.0许可证发布，在推理任务上的表现优于同规模的开源模型，展现出强大的工具使用能力，并且经过优化，可在消费级硬件上高效部署。

其中，GPT-OSS-120B模型在核心推理基准测试上的表现接近OpenAI O4-mini，同时能在单块80GB GPU上高效运行。而GPT-OSS-20B模型在常见基准测试中的结果与OpenAI O3-mini相近，且仅需16GB内存就能在边缘设备上运行，非常适合设备端使用场景、本地推理或无需昂贵基础设施的快速迭代。

在工具使用、少样本函数调用、思维链推理（从Tau-Bench智能体评估套件的结果中可看出）和HealthBench方面，这两款模型也表现出色，甚至超过了OpenAI O1和GPT-4o等专有模型。

得分不及DeepSeek R1，

实测效果不尽人意？

此前OpenAI已经公开了包括Whisper和CLIP在内的其他模型，但GPT-OSS模型是自GPT-2以来其推出的首批开源语言模型。

“从我的快速测试来看，GPT-OSS-120B看起来非常强大。”吴恩达第一时间评价道。还有网友表示，“这可能是OpenAI第一次不辜负它的名字。”

OpenAI发布开源语言模型GPT-OSS，挑战DeepSeek R1 GPT-OSS 开源语言模型 DeepSeek 人工智能第2张

然而，Artificial Analysis发布的测试结果显示：“对OpenAI的GPT-OSS模型的独立基准测试显示，GPT-OSS-120B是美国最智能的开源模型之一。尽管其在智能水平上不及DeepSeek R1和Qwen3 235B，但在效率方面却具有优势。”

具体来说，尽管GPT-OSS-120B在得分上未能超过DeepSeek R1 0528的59分和Qwen3 235B 2507的64分，但其总参数和活跃参数数量均远小于这两款模型。DeepSeek R1的总参数为6710亿，活跃参数为370亿且原生以FP8精度发布。这使得其总文件大小（及内存需求）是GPT-OSS-120B的十倍以上。

阿里云服务器性价比服务器免费vps