字节跳动突发大动作,推出了拥有360亿参数的Seed-OSS-36B大模型,一经发布便引起了业界的广泛关注。
Seed-OSS的命名显然是在致敬OpenAI的GPT-OSS系列,它并未直接开源核心商业模型,而是为开源社区打造了一个特别版本。
字节跳动的Seed团队已在Hugging Face和GitHub上正式发布了该系列模型,采用Apache-2.0开源协议,供学术研究和商业部署免费使用。
Seed-OSS最引人注目的特性是原生支持512K的超长上下文,相比目前主流的128K上下文窗口,其性能提升了4倍。
这种超长上下文在预训练阶段就已构建完成,无需后期插值等技巧。这意味着在处理法律文档审查、长篇报告分析等需要海量信息的专业场景时,Seed-OSS能轻松应对。
此外,Seed-OSS还引入了“思考预算”(Thinking Budget)机制,通过设定token数量来控制模型思考的深度。例如,设置512个token的预算后,模型在推理过程中会逐步消耗这些token,并在用尽后给出答案。
字节团队建议使用512的整数倍作为token数量,因为这些区间上模型经过了大量训练。
在模型架构方面,Seed-OSS采用了稳定成熟的360亿参数稠密模型,结合了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。该模型具有64层、隐藏层维度为5120、词汇表大小为155K。
考虑到合成指令数据可能对后训练研究产生影响,字节Seed团队提供了两个版本的基座模型:一个包含合成指令数据(性能更强),一个不包含(更纯净),以提供更多选择。
在知识理解方面,Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分,超过了同等规模的Qwen2.5-32B-Base的58.5分。在TriviaQA上更是拿下了82.1的高分。
推理能力的BBH基准测试得分87.7,刷新了开源模型的记录。在数学能力上,GSM8K达到90.8分,MATH的81.7分。Seed-OSS的代码能力同样不俗,HumanEval得分76.8,MBPP达到80.6。
指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩,仅次于OpenAI的OSS-20B。
并且这些成绩是在仅使用12T token训练的情况下取得的,相比之下,很多同规模模型的训练数据量都在15T以上。
字节Seed团队成立于2023年,致力于“打造业界最先进的AI基础模型”,研究方向覆盖大语言模型、多模态、AI基础设施等多个前沿领域。
过去一年多时间里,该团队已陆续开源了多个有影响力的项目。今年5月,他们发布了Seed-Coder,一个8B规模的代码生成模型;紧接着推出了BAGEL;更早之前还发布了Seed Diffusion。为了支撑这些模型的训练,他们还开源了VeOmni。
最近他们还推出了Seed LiveInterpret端到端的同声传译模型,不仅翻译准确率高、延迟低,还能复刻说话人的声音特征。
随着Seed-OSS的开源,国产开源Base模型阵营又添一员猛将。
本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439896.html