当前位置:首页 > 科技资讯 > 正文

BigBang-Proton:从科学任务到宇宙尺度压缩的突破

GPT-5、DeepSeek等大语言模型能否直接执行如Alphafold这样的专业科学任务?OpenAI的Sam Altman多次提到,ChatGPT的主要目标是建造基于语言的通用推理机器(General Reasoning Machine),并使用该机器来调用专业科学模型,而非直接执行。

近日,专注于研发物质世界基座模型的公司超越对称(上海)技术有限公司(超对称)发布了新版基座模型BigBang-Proton,成功实现了多个真实世界专业学科问题与大型语言模型(LLM)的统一预训练和推理,挑战了Sam Altman和主流的AGI技术路线。

BigBang-Proton不仅解决了如Alphafold这样的专业生物问题,还展示了横跨所有物质尺度从微观粒子夸克、材料晶格到DNA蛋白质乃至宏观地球系统的科学问题的整合能力,采用next-word-prediction范式来完成预训练和推理。

同时,BigBang-Proton实验结果表明,当前主流的AGI技术路线,以GPT 5和DeepSeek R1为代表的长程思维链(long horizon chain-of-thought)在理解真实物质结构上遭遇完全失败,这表明仅依赖长程思维链不可能实现AGI。

BigBang-Proton:从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩 第1张

超对称公司提出物质结构学习(Structure Learning)是实现AGI的必备要素之一,掌握物质结构的LLM即可自然进入物理世界。

BigBang-Proton的重要性在于回答了当前行业热烈争论的“预训练和scaling law是否已见顶”的问题。主流的通用LLM在全量互联网数据上训练,涉及科学问题的数据也局限于人类已发表的数亿篇论文和书本,这些数据都是自然语言的模态。而图像学习为主的世界模型技术路线认为next-word-prediction范式的LLM是死路。超对称公司提出了第三种路线,即从物质结构学习入手,让LLM的预训练从互联网数据的困局中跳出来,进入物质世界,构建超长上下文来包含整个物质世界的世界模型。

LLM预训练的边界在哪里?BigBang-Proton的答案是,LLM的预训练会一直扩展到全宇宙。因此超对称公司在BigBang-Proton的基础上提出了“Universe Compression”,宇宙尺度压缩,将全宇宙的信息转为超长序列压缩到一个单一基座上,成为当前所有AI分支任务的基座。

BigBang-Proton:从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩 第2张

与常见的从事语言学习的LLM公司不同,超对称公司长时间专注于用LLM来理解数字即0-9。超对称公司初期的业务是分析新闻和财报预测金融市场波动,服务量化金融。

在金融业务中团队发现金融业务对数值数据高度敏感。在这个业务过程中超对称团队发现LLM使用字节对编码(byte pair encoding, BPE)带来了数值分析上的底层缺陷。他们进而发现数值能力的缺陷是主流LLM无法学习真实科学数据的原因之一。

真实世界的科研90%以上需要理论结合实验,而实验测量的结果大部分以数值来记录。超对称公司2024年发布的BigBang-Neutron是首个专注于理解大规模实验数值的LLM, 提出用二进制块编码(binary patch encoding)替代BPE。而BigBang-Proton在BigBang-Neutron的基础上继续创新,实现真实世界科研的多任务学习。

1 基础性难题与BigBang-Proton的三项根本性创新

创新一:二进制块编码——扔掉Tokenizer分词器,统一语言、数值与科学数据

BigBang-Proton:从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩 第3张

传统的分词器在数值上表现极差且无法有效应对多学科、多尺度、多结构的科学数据表征。我们彻底抛弃了传统的分词器,采用了二进制块编码(Binary Patch Encoding)。该方法基于一个深刻而简单的洞见:所有数据在计算机中最终都以二进制形式存储。因此,BigBang-Proton将所有输入——无论是英文文本、中文汉字、Python代码,还是粒子能量、原子坐标、DNA序列——都统一视为最原始的二进制序列进行处理。

  • 数值保真:数字以其原生格式完整保存,避免了分词带来的信息失真。
  • 真正统一:一种编码方式处理所有模态数据。
  • 极致灵活:能够无缝处理任何以二进制格式存储的科学数据集。

创新二:理论 - 实验学习范式——弥合理论与实验的鸿沟

科学实验产出海量数值数据,如何有效地与文本为中心的理论知识对齐和训练?解决了这个问题,就能覆盖90%以上的实验科研任务。科学知识以语言形式和定量形式存在,一个统一的模型必须整合符号推理与数据驱动学习。

超对称提出了理论 - 实验学习范式。该框架的核心创新在于建立一种混合表示,将数值型实验数据直接与文本描述对齐。在粒子物理中,每个末态粒子的数值测量值与文本注释配对;在材料科学中,大规模的实验或模拟数据集被系统地转换为自然语言描述并嵌入到理论背景中。

  • 双重对齐结构:理论概念与实验数据序列被置于同一上下文中。
  • 科学计算转为序列学习:基于序列的自回归语言模型学习实验数据中的模式。
  • 语言引导的科学计算:模型能够根据自然语言指令直接执行科学任务。

创新三:Monte Carlo Attention——为模拟复杂物质结构而生的注意力机制

BigBang-Proton:从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩 第4张

从原子尺度模拟复杂物质结构需要处理极大的信息序列。传统Transformer的注意力机制计算复杂度随序列长度呈平方级增长,无法扩展到所需规模。超对称用Monte Carlo Attention替代了传统的Transformer架构。

Monte Carlo Attention旨在解决二进制块注意力计算中固有的计算复杂性,同时保留了稀疏注意力和状态空间模型的优点。其核心机制是分块代表交流机制,模仿人类代议制政治系统。

BigBang-Proton:从科学任务到宇宙尺度压缩的突破 BigBang-Proton 物质结构学习 LLM 宇宙尺度压缩 第5张

在本工作中,BigBang-Proton采用20层Monte Carlo Attention实现了10^30字节的上下文容量。理论上,要达到可观测宇宙中重子粒子的估计数量10^80,Monte Carlo Attention层数可设为60。

2 BigBang-Proton在五个专业学科任务的表现