当前位置：首页 > 科技资讯 > 正文

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相

字节跳动突发大动作，推出了拥有360亿参数的Seed-OSS-36B大模型，一经发布便引起了业界的广泛关注。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第1张

Seed-OSS的命名显然是在致敬OpenAI的GPT-OSS系列，它并未直接开源核心商业模型，而是为开源社区打造了一个特别版本。

字节跳动的Seed团队已在Hugging Face和GitHub上正式发布了该系列模型，采用Apache-2.0开源协议，供学术研究和商业部署免费使用。

超长上下文与灵活思考预算

Seed-OSS最引人注目的特性是原生支持512K的超长上下文，相比目前主流的128K上下文窗口，其性能提升了4倍。

这种超长上下文在预训练阶段就已构建完成，无需后期插值等技巧。这意味着在处理法律文档审查、长篇报告分析等需要海量信息的专业场景时，Seed-OSS能轻松应对。

此外，Seed-OSS还引入了“思考预算”（Thinking Budget）机制，通过设定token数量来控制模型思考的深度。例如，设置512个token的预算后，模型在推理过程中会逐步消耗这些token，并在用尽后给出答案。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第2张

字节团队建议使用512的整数倍作为token数量，因为这些区间上模型经过了大量训练。

在模型架构方面，Seed-OSS采用了稳定成熟的360亿参数稠密模型，结合了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。该模型具有64层、隐藏层维度为5120、词汇表大小为155K。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第3张

考虑到合成指令数据可能对后训练研究产生影响，字节Seed团队提供了两个版本的基座模型：一个包含合成指令数据（性能更强），一个不包含（更纯净），以提供更多选择。

在知识理解方面，Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分，超过了同等规模的Qwen2.5-32B-Base的58.5分。在TriviaQA上更是拿下了82.1的高分。

推理能力的BBH基准测试得分87.7，刷新了开源模型的记录。在数学能力上，GSM8K达到90.8分，MATH的81.7分。Seed-OSS的代码能力同样不俗，HumanEval得分76.8，MBPP达到80.6。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第4张

指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩，仅次于OpenAI的OSS-20B。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第5张

并且这些成绩是在仅使用12T token训练的情况下取得的，相比之下，很多同规模模型的训练数据量都在15T以上。

字节Seed团队成立于2023年，致力于“打造业界最先进的AI基础模型”，研究方向覆盖大语言模型、多模态、AI基础设施等多个前沿领域。

过去一年多时间里，该团队已陆续开源了多个有影响力的项目。今年5月，他们发布了Seed-Coder，一个8B规模的代码生成模型；紧接着推出了BAGEL；更早之前还发布了Seed Diffusion。为了支撑这些模型的训练，他们还开源了VeOmni。

字节开源超大模型Seed-OSS-36B，创新技术与强大性能亮相 Seed-OSS-36B 开源大模型超长上下文思考预算第6张

最近他们还推出了Seed LiveInterpret端到端的同声传译模型，不仅翻译准确率高、延迟低，还能复刻说话人的声音特征。

随着Seed-OSS的开源，国产开源Base模型阵营又添一员猛将。

本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439896.html