当前位置：首页 > 科技资讯 > 正文

BigBang-Proton：从科学任务到宇宙尺度压缩的突破

主机测评网
科技资讯
2026-05-09
442

GPT-5、DeepSeek等大语言模型能否直接执行如Alphafold这样的专业科学任务？OpenAI的Sam Altman多次提到，ChatGPT的主要目标是建造基于语言的通用推理机器（General Reasoning Machine），并使用该机器来调用专业科学模型，而非直接执行。

近日，专注于研发物质世界基座模型的公司超越对称（上海）技术有限公司（超对称）发布了新版基座模型BigBang-Proton，成功实现了多个真实世界专业学科问题与大型语言模型（LLM）的统一预训练和推理，挑战了Sam Altman和主流的AGI技术路线。

BigBang-Proton不仅解决了如Alphafold这样的专业生物问题，还展示了横跨所有物质尺度从微观粒子夸克、材料晶格到DNA蛋白质乃至宏观地球系统的科学问题的整合能力，采用next-word-prediction范式来完成预训练和推理。

同时，BigBang-Proton实验结果表明，当前主流的AGI技术路线，以GPT 5和DeepSeek R1为代表的长程思维链（long horizon chain-of-thought）在理解真实物质结构上遭遇完全失败，这表明仅依赖长程思维链不可能实现AGI。

BigBang-Proton：从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩第1张

超对称公司提出物质结构学习（Structure Learning）是实现AGI的必备要素之一，掌握物质结构的LLM即可自然进入物理世界。

BigBang-Proton的重要性在于回答了当前行业热烈争论的“预训练和scaling law是否已见顶”的问题。主流的通用LLM在全量互联网数据上训练，涉及科学问题的数据也局限于人类已发表的数亿篇论文和书本，这些数据都是自然语言的模态。而图像学习为主的世界模型技术路线认为next-word-prediction范式的LLM是死路。超对称公司提出了第三种路线，即从物质结构学习入手，让LLM的预训练从互联网数据的困局中跳出来，进入物质世界，构建超长上下文来包含整个物质世界的世界模型。

LLM预训练的边界在哪里？BigBang-Proton的答案是，LLM的预训练会一直扩展到全宇宙。因此超对称公司在BigBang-Proton的基础上提出了“Universe Compression”，宇宙尺度压缩，将全宇宙的信息转为超长序列压缩到一个单一基座上，成为当前所有AI分支任务的基座。

BigBang-Proton：从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩第2张

与常见的从事语言学习的LLM公司不同，超对称公司长时间专注于用LLM来理解数字即0-9。超对称公司初期的业务是分析新闻和财报预测金融市场波动，服务量化金融。

在金融业务中团队发现金融业务对数值数据高度敏感。在这个业务过程中超对称团队发现LLM使用字节对编码（byte pair encoding, BPE）带来了数值分析上的底层缺陷。他们进而发现数值能力的缺陷是主流LLM无法学习真实科学数据的原因之一。

真实世界的科研90%以上需要理论结合实验，而实验测量的结果大部分以数值来记录。超对称公司2024年发布的BigBang-Neutron是首个专注于理解大规模实验数值的LLM, 提出用二进制块编码（binary patch encoding）替代BPE。而BigBang-Proton在BigBang-Neutron的基础上继续创新，实现真实世界科研的多任务学习。

1 基础性难题与BigBang-Proton的三项根本性创新

创新一：二进制块编码——扔掉Tokenizer分词器，统一语言、数值与科学数据

BigBang-Proton：从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩第3张

传统的分词器在数值上表现极差且无法有效应对多学科、多尺度、多结构的科学数据表征。我们彻底抛弃了传统的分词器，采用了二进制块编码（Binary Patch Encoding）。该方法基于一个深刻而简单的洞见：所有数据在计算机中最终都以二进制形式存储。因此，BigBang-Proton将所有输入——无论是英文文本、中文汉字、Python代码，还是粒子能量、原子坐标、DNA序列——都统一视为最原始的二进制序列进行处理。