当前位置:首页 > 科技资讯 > 正文

OpenAI重返开源大模型战场,影响几何?

OpenAI重返开源大模型战场,影响几何? OpenAI 开源大模型 GPT-OSS 技术影响 第1张

2025年8月5日,美国西海岸时间,OpenAI发布了两款开源大模型——GPT-OSS 120B和GPT-OSS-20B,这些模型现在可以从Hugging Face平台下载,供用户修改、定制和商业应用。包括亚马逊AWS、微软Azure在内的主流云平台也已经开始提供基于这两款模型的服务。这是自2019年11月以来,OpenAI首次发布开源大模型。

历史似乎充满讽刺。OpenAI的名称就寓意着“开放”和“开源”,这曾是Sam Altman自诩为AI时代的核心精神和生存之道。然而,从2019年初开始,OpenAI便逐渐偏离了开源的轨道:那年2月,它以“安全问题”为借口,仅公布了7.74亿参数的“部分模型”的GPT-2;直到同年11月,在GPT-2无人问津的情况下,才羞怯地公布了全部15亿参数。至于后来大放异彩的GPT-3、GPT-3.5以及GPT-4系列大模型,则从未公布过参数权重或技术路线白皮书。

截至昨天,在全球AI大模型基础研发领域,OpenAI成为了仅有的几家“没有任何新版开源大模型”的开发者之一。另一家是Anthropic,自成立起就从未发布过开源大模型。考虑到Anthropic是由对OpenAI不满的离职员工创立的,这验证了“不是一家人,不进一家门”的俗话。

在竞争对手中,谷歌从2024年开始维持着开源的Gemma系列大模型,与闭源的Gemini系列大模型齐头并进;Meta的LLaMA系列大模型是当今主流开源大模型的精神源头;来自法国的Mistral的第一版大模型就有开源版本;马斯克的Grok在成立之初就公布了开源大模型;阿里巴巴的Qwen已成为衍生版本系列最多的开源大模型之一。更不用说DeepSeek了,如果不是开源,它绝不可能获得这么大的影响力和应用范围。

有人不禁要问:为什么要开源?对竞争对手而言,开源便于互相学习借鉴(甚至抄袭)。对全人类而言,开源促进技术进步。但对OpenAI这样的领先开发者来说,开源有何实际意义?(除了为自己正名?)

答案明确:开源大模型可下载到本地硬件设备中运行,对客户有吸引力。总结如下:

客户可将数据存储在本地,而非上传至第三方平台,从而最大限度地保护数据安全。这对国家机密和商业机密都至关重要。

客户可基于自身需求微调开源大模型,以契合特定行业应用场景。医疗、金融等复杂或敏感行业对此需求尤其旺盛。

对预算有限的客户而言,在本地硬件上运行大模型可能比购买闭源大模型使用权更划算。例如,GPT-OSS-2B甚至可在笔记本电脑上运行。

当然,本地部署意味着客户需负责信息安全和技术维护。权衡利弊后,许多大型行业客户仍偏好开源大模型。这便是LLaMA系列在欧美深受大企业欢迎的原因,也是DeepSeek今年初席卷国内政企客户的原因。尽管DeepSeek的技术水平或许与GPT-4o1相当,但如果不是开源,其应用速度会慢得多。

如今,在阔别近六年后,OpenAI终于重返开源大模型战场。一定程度上,这受到了LLaMA、DeepSeek、Qwen和Grok等开源大模型的刺激;但从商业角度看,这一决策迟早要做出。因为有些企业客户永远不可能将重要数据上传至第三方平台;政府部门更不可能。与其让市场留给竞争对手,不如自己去占领。尽管竞争对手技术进步可能慢一些,但OpenAI重返开源赛道的速度只会慢一些。

这也意味着2025年成为了“开源之年”:国内领先的百度和国外仍领先的OpenAI都发布了开源大模型。Meta发布了最新开源版本,阿里则明显加快了开源版本的发布速度。此时,全球主流大模型开发商仅有两家未开源:Anthropic和国内的字节跳动——豆包大模型(及其前身云雀)尚无任何形式的开源版本或计划。但从技术角度看,豆包不属于全球第一集团,开源与否对大模型技术进步影响不大。

接下来探讨:本次OpenAI的开源对全球大模型技术有何影响?我不是技术开发者,仅从常识角度谈。我认为:影响有但有限。一方面因OpenAI未开源最新版本和技术;另一方面因过去两年外界对其技术路线的“猜测”较成功。

OpenAI公布的GPT-OSS两个版本训练数据截至2024年6月、训练结束于8月,性能大致与GPT-4o3及o3 mini相当——后两者发布已四个月。评测指出GPT-OSS-120B表现优于DeepSeek和Qwen的最新版本,但这并未提供新信息。这仅证明OpenAI至少还有几个月的领先优势。

在技术路线上,从OpenAI的白皮书中可知:

GPT-OSS采用混合专家架构,这一点早已被外界猜到。混合专家架构是目前主流。GPT-OSS 120B每层有128个专家、20B每层有32个专家、每个路径会激活4个最擅长的专家——这些细节仍有用。

GPT-OSS在标准文本基础上训练、思维链(CoT)架构在后训练阶段实现。CoT是“深度推理”大模型的基础。现在可以确定OpenAI与竞争对手一样在后训练阶段赋予CoT。

在后训练阶段与GPT-4o3一样采用了CoT RL技术。还使用了外部API、RAG Agents等在此不赘述。这证实了外界的猜测。

未压制“大模型幻觉”会降低CoT透明度。因此GPT-OSS深度推理模式幻觉率高可能是所有深度推理模型的通病。

总之上述大部分技术路线是外界早已猜测或争辩的。某些技术细节如后训练手段可能带来启发但改进有限。如果OpenAI有“独门秘籍”大概也不会在白皮书中公布。这份白皮书证明:过去两年多全球大模型开发者对OpenAI技术路线的猜测和模仿大部分是正确的。

需要强调GPT-OSS只是“开放权重”大模型而非完整意义上的“开源”。它公布的只是参数及其取值(权重)、一份34页的技术白皮书及其他少量信息。如果要“复刻”一个成品至少缺失如下环节:

训练中使用的各种“脚手架模型”、语料库、训练工具等某些竞争对手会部分公布但OpenAI没有。

完全满足上述“开源”条件的大模型非常罕见尤其是商业公司几乎不可能发布这种“全面开源”的大模型。原因很简单:大家发布开源大模型是为了满足客户需求、培育开发者生态而非方便抄袭。

附带说一句OpenAI公布了GPT-OSS的训练细节:基于英伟达H100 GPU其中1200亿参数版本消耗了210万H100小时、200亿版本是前者的六分之一。从这里可以推断出使用的算力集群规模——假设训练时间为30天则使用了2917张H100;若为45天则使用了1944张。考虑到训练数据截至2024年6月、完成于7月底或8月初所以训练时间不太可能明显超过45天。

因此GPT-OSS还没用上最新的Blackwell系列GPU也没有使用“万卡集群”。这是否意味着顶尖大模型的训练算力需求没那么高?且慢下结论因为GPT-OSS不是OpenAI的当家模型只是内部训练的无数个模型之一。