当前位置:首页 > 科技资讯 > 正文

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线

GPT-5和DeepSeek等大型语言模型是否能够直接承担Alphafold这类专业科学任务?OpenAI的Sam Altman多次指出,ChatGPT的核心宗旨是构建基于语言的通用推理机器,进而借助该推理机器来调度如Alphafold这样的专业科学模型以应对特定科学问题,因此既无可能也无必要让ChatGPT直接处理Alphafold的任务。

近日,专注于研发物质世界基础模型的公司超越对称(上海)技术有限公司(超对称)推出了新版基座模型BigBang-Proton,成功实现了多个真实世界专业学科问题与LLM的统一预训练和推理,这一成果对Sam Altman和主流的AGI技术路线提出了挑战。

BigBang-Proton的展示结果表明,不仅是Alphafold和AlphaGenome这样的专业生物问题,跨越所有物质尺度——从微观粒子如夸克、材料晶格到DNA蛋白质,再到宏观地球系统的科学问题——都可以整合到同一个自回归LLM中,通过next-word-prediction范式完成预训练和推理。

同时,BigBang-Proton的实验结果揭示,目前主流的AGI技术路线,即以GPT-5和DeepSeek-R1为代表的长程思维链,在理解真实物质结构方面遭遇了完全失败,这说明仅依赖长程思维链不可能实现AGI。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第1张

超对称公司提出,物质结构学习是实现AGI的必备要素之一,而掌握物质结构的LLM即可自然融入物理世界。

BigBang-Proton所展现成果的重要性在于,它回应了当前行业热烈争论的“预训练和scaling law是否已见顶”的问题。主流的通用LLM在全量互联网数据上训练,涉及科学问题的数据也仅局限于人类已发表的数亿篇论文和书本,这些数据都是自然语言的模态,语言数据用尽后自然遇到scaling law hits wall的困境。

同时,当前以图像学习为主的世界模型技术路线,以李飞飞和杨立坤为代表,认为next-word-prediction范式的LLM是死路,应从图像入手重构世界。超对称公司提出了第三种路线,即从物质结构学习入手,让LLM的预训练从互联网数据的困局中跳脱出来,进入物质世界,构建超长上下文来包含整个物质世界的世界模型,这样的预训练出来的基座可将语言、科学智能、空间智能、具身智能都整合在一个终极的统一模型上。

LLM预训练的边界在哪里?BigBang-Proton的答案是,LLM的预训练会一直扩展到全宇宙。因此,超对称公司在BigBang-Proton的基础上提出了一个大胆的设想,即“宇宙尺度压缩”,将全宇宙的信息转为超长序列压缩到一个单一基座上,成为当前所有AI分支任务的基座。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第2张

与常见的从事语言学习的LLM公司不同,超对称公司长时间专注于用LLM来理解数字即0-9。超对称公司初期的业务是分析新闻和财报预测金融市场波动,服务量化金融。

在金融业务中,团队发现金融业务对数值数据高度敏感,如企业营收11位数,LLM在推理过程中幻觉导致1位数错误都会给业务带来崩盘。在这个业务过程中,超对称团队发现LLM使用字节对编码带来了数值分析上的底层缺陷,这个缺陷也导致了常见的LLM笑话如9.11比9.8大,他们进而发现数值能力的缺陷是主流LLM无法学习真实科学数据的原因之一。

真实世界的科研90%以上需要理论结合实验,而实验测量的结果大部分以数值来记录。超对称公司2024年发布的BigBang-Neutron是首个专注于理解大规模实验数值的LLM,提出用二进制块编码替代BPE。而BigBang-Proton在BigBang-Neutron的基础上继续创新,实现真实世界科研的多任务学习。

1 基础性难题与BigBang-Proton的三项根本性创新

基于LLM构建面向专业科学任务的统一模型,必须解决几个基础性难题。BigBang-Proton为此引入了三项根本性的创新:

创新一:二进制块编码——扔掉Tokenizer分词器,统一语言、数值与科学数据

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第3张

传统的分词器,如字节对编码Byte Pair Encoding(BPE)、SentencePiece和WordPiece,在数值上表现极差,且无法有效应对多学科、多尺度、多结构的科学数据表征。在对数字进行分词时会引入歧义和不一致性,导致同一个数字根据上下文被分割成不同的片段。这种标记ID的不连续性使得数值数据的管理和处理变得复杂,尤其在需要顺序或模式化的标记ID时。

我们彻底抛弃了传统的分词器,采用了二进制块编码 (Binary Patch Encoding)。该方法建立在超对称之前的工作BigBang-Neutron以及其他领域的重要贡献(如BGPT、Megabyte、SpaceByte和BLT)之上。该方法基于一个深刻而简单的洞见:所有数据在计算机中最终都以二进制形式存储。因此,BigBang-Proton将所有输入——无论是英文文本、中文汉字、Python代码,还是粒子能量、原子坐标、DNA序列——都统一视为最原始的二进制序列进行处理,目前使用UTF-8编码,而后通过对二进制序列切割为Patch块的方式来降低计算复杂度。

二进制块编码(Binary Patch Encoding)优势包括:

  • 数值保真:数字以其原生格式完整保存,避免了分词带来的信息失真,从而实现了精确的算术计算。这使得模型在高达50位数的加法运算中实现了100%的准确率。
  • 真正统一:一种编码方式处理所有模态数据,无论是文本、数值、符号还是结构数据,消除了对特定模态分词方案的需求,简化了预处理流程。
  • 极致灵活:能够无缝处理任何以二进制格式存储的科学数据集(如.bin、.dat格式),为构建统一的数据表征奠定了基础。

创新二:理论-实验学习范式——弥合理论与实验的鸿沟

科学实验产出海量数值数据,如何能有效地与文本为中心的理论知识对齐和训练?解决了这个问题,就能覆盖90%以上的实验科研任务。科学知识以语言形式和定量形式存在,一个统一的模型必须整合符号推理与数据驱动学习。

超对称提出了理论-实验学习范式。这类似于为图片配标题的视觉-语言模型,但超对称是为科学实验数据配“理论描述标题”。该框架的核心创新在于建立一种混合表示,将数值型实验数据直接与文本描述对齐。

在粒子物理中,每个末态粒子的数值测量值(电荷、能量、动量分量、碰撞参数等)都与“带电π介子”或“中性强子”等文本注释配对,形成了类似于双模态图像-标题对的实验数据-文本对齐。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第4张

在材料科学中,大规模的实验或模拟数据集被系统地转换为自然语言描述,并嵌入到理论背景中。例如,对于Ag₂SnYb晶体结构,来自原始MPtrj格式的数据被分解并转换为自然语言描述。

除了这些即时注释外,该框架还整合了更深层次的理论解释,例如来自维基百科和研究文献等通用科学语料库的粒子物理中的量子色动力学(QCD)原理、夸克-胶子动力学,以及凝聚态物理中的密度泛函理论和电子结构。

理论-实验学习范式的优势:

  • 双重对齐结构:在预训练期间,理论概念与实验数据序列被置于同一上下文中,从而在局部层面创建了即时的数据-标题对,在全局层面则提供了全面的理论解释。
  • 科学计算转为序列学习:基于序列的自回归语言模型学习实验数据中的模式(这些模式传统上由图神经网络或数值分析模型捕获),并在统一的上下文中将数值观测与理论概念对齐。
  • 语言引导的科学计算:通过集成的模式识别和语言推理,使模型能够根据自然语言指令直接执行科学任务,实现语言引导的分类、回归、时空预测、基因组建模这些最常见的科学计算任务。

创新三:Monte Carlo Attention——为模拟复杂物质结构而生的注意力机制

从原子尺度模拟细胞、量子系统、地球和宇宙等复杂物质结构,模型需要处理极大的信息序列。传统Transformer的注意力机制计算复杂度随序列长度呈平方级增长,无法扩展到所需规模。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第5张

超对称用蒙特卡罗注意力(Monte Carlo Attention)替代了传统的Transformer架构。这一创新旨在解决二进制块注意力计算中固有的计算复杂性,同时保留了稀疏注意力和状态空间模型(被认为是Transformer的主要替代方案)的优点。

其核心机制是分块代表交流机制,模仿人类代议制政治系统,将序列分为块后,每块派代表到其他块进行交流再回到本块,这样的机制使模型的有效上下文长度能够随着注意力层数的增加而指数级增长。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第6张

在本工作中,BigBang-Proton采用20层Monte Carlo Attention,实现了10^30字节的上下文容量。理论上,要达到可观测宇宙中重子粒子的估计数量10^80,Monte Carlo Attention层数可设为60。如此高的上下文长度对于模型有效学习复杂的物质结构至关重要,其范围从细胞和量子色动力学(QCD)现象等微观系统,到地球系统、飞机、汽车乃至宇宙等宏观结构。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第7张

BigBang-Proton选取了五个专业科学问题和通用语料进行预训练,包括五十位数算术运算,粒子对撞的喷注分类,材料原子间势能模拟,水质预测,DNA/RNA/蛋白质联合建模。算术运算能力是LLM理解其他所有科学任务的基础,居于中心位置。其他四个科学任务都是其所在学科最核心的任务,该学科的诸多问题都可以从此任务延伸解决。

粒子喷注分类决定了科学家能从粒子对撞结果甄别出新粒子的能力,原子间势能模拟可推导出材料物理化学性能,水质预测是地球系统模拟的基础,DNA/RNA/蛋白质联合建模是生物信息学的核心。BigBang-Proton的架构设计目标是实现语言引导的科学计算,包括语言引导的分类,回归,时空预测,DNA序列模拟。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第8张

BigBang-Proton有1.5B参数,训练损失和困惑度曲线在61,381步内表现出一致、平滑且单调的收敛,证明了在整个预训练过程中学习的稳定性和有效性。

损失稳步下降至0.613,而困惑度降至2.04,反映出模型在所有九个多样化任务中准确预测下一个标记的能力得到了显著提升。这种持续的改进表明,采用二进制块编码实现的“下一个词预测”,能够克服高数据异质性,并有效地实现稳健的模型收敛。

2 BigBang-Proton在五个专业学科任务的表现

五十位数算术运算

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第9张

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第10张

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第11张

在涉及最多50位数加法和减法以及最多12位数乘法的算术任务中,不调用外部工具和代码,只允许使用自身的能力,BigBang-Proton、DeepSeek-R1和ChatGPT-o1这三个模型的准确率表现如下:BigBang-Proton在加法、减法和乘法上的准确率分别为100%、98%和90%。DeepSeek-R1的准确率为19.23%、11.63%和9.68%;而ChatGPT-o1的准确率最低,分别为3.85%、6.98%和3.23%。

对于每项任务,BigBang-Proton在200个样本的测试集上进行评估,而DeepSeek-R1和ChatGPT-o1在100个样本的测试集上进行评估。BigBang-Proton与通用LLMs在算术任务上巨大的性能差距源于二进制块编码和字节对编码的区别。

超对称团队发现,BigBang-Proton在推理过程展示了对数字位的高度敏感,学会了算术逻辑单元进位机制。ALU是芯片的最基础逻辑单元,其原理是基于进位原则进行逐位操作。计算机所有高阶能力都建立在ALU上。二进制块编码完整保留了数值原本含义,能自然学到位置对齐和进位原则。BPE倾向于将多位数分割成不规则的块(例如,“1009 + 8432”可能会被分割为“100”、“9”、“+”、“84”、“32”),这会破坏模型正确对齐操作,无法学到ALU的运行机制。

BigBang-Proton在五十位数加法运算上达到100%准确率的进展,宣告了LLM算术幻觉这个长期的大难题从源头上得到彻底解决,将会对所有根基于数值计算的领域包括科学、工程、金融等产生深刻影响

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第12张

粒子喷注分类:语言引导的分类 Language-Guided Classification

在大型强子对撞机(LHC)或中国高能所正在建的正负电子希格斯工厂(CEPC)等设施进行的高能粒子对撞中,夸克和胶子会产生沿同一方向行进的强子准直喷流,即喷注。这些喷注保留了底层部分子动力学的信息,是研究量子色动力学(QCD)的关键信号。

BigBang-Proton预训练数据包含了1100万条喷注数据,基于实验-理论学习的格式将实验数值置于理论文本的上下文中,在执行任务前继续用同样的数据进行微调,然后通过提示语-类别的格式,将喷注分为十一种基本粒子中的一种,包括五种夸克 (u, b, t, s, c) 及其反夸克和胶子 (gluon)。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第13张

在单类100万数据集规模下,BigBang-Proton在11类分类任务中达到了51.29%的准确率,略低于采用相同二进制块编码的BigBang-Neutron的52.18%。

与最先进的专用分类模型相比,Particle Transformer (ParT)的56.69%和ParticleNet (PN)的55.29%,BigBang-Proton的准确率仅与这些专用模型相差4.0-5.4%。这些结果显示BigBang-Proton语言引导分类的能力在真实的要求高精度计算的粒子物理任务中已达到可与专用SOTA模型竞争的水平。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第14张

不做微调,直接使用零样本推理,通用大语言模型(LLMs)在11类粒子喷注分类任务上的表现极为不足,所有模型的性能都接近随机猜测水平(10%)。DeepSeek-R1(8%)、ChatGPT-O1(7%)、Claude 3.5 Sonnet(9%)、KIMI(7%)和ChatGLM(9%)仅取得了有限的准确率。

即使是专门为复杂推理设计的高级版本,如GPT-5(16.4%)、Grok4(11.8%)和Claude Sonnet 4 thinking(5.45%),也只显示出微小的改进,这表明它们复杂的推理能力在此科学任务中是无效的。

另外,超对称团队还使用110万喷注数据(每类10万个样本)微调两个主流大语言模型Qwen 2.5和Llama3.2,然后进行零样本推理,进一步评估了它们的性能。结果表明Llama3.2的准确率仅为0.09%,而Qwen 2.5的准确率为0%。这一结果表明,使用BPE分词器的主流大语言模型在处理大规模数值数据方面存在根本性局限。

超对称团队还观察到语言引导的分类展示出有趣的行为,调整提示语的上下文,分类的结果有时会改变。这证实了实验-理论学习范式的有效性。“实验-理论学习范式实质是通过用人类语言表达的理论作为上下文,来约束实验数值在高维隐空间的检索,所以我们会看到上下文的调整会影响分类的输出。”研发工程师何继华说。

参与使用BigBang-Proton进行喷注分类的中国高能物理研究所的阮曼奇老师说:“仅通过跟BigBang-Proton对话,就能实现平时我们要用专业模型才能做的分类计算,这是比较新奇的。专业分类模型仅能利用实验数值,这种理论结合实验的科学计算方式还有挺大潜力可以挖掘。”

材料原子间势能模拟:语言引导的回归 Language-Guided Regression

通过在原子晶格内对大规模电子相互作用进行建模来准确预测材料性质,传统上依赖于高保真的第一性原理方法,如密度泛函理论(DFT)和从头算分子动力学(AIMD),通过显式计算电子结构来提供量子力学精度。

由于DFT计算复杂度随原子数量呈三次方增长,大量的机器学习原子间势能模拟模型被开发出来替代DFT计算,降低原子尺度模拟的计算复杂度,当前大部分这类MLIP模型都是基于GNN架构(例如,M3GNet和DPA-2)。

BigBang-Proton选取行业主流的材料科学基准Matbench来测试原子间势能模拟的能力,在Material Project Trajectory (MPTrj)数据集上进行训练,遵循MatBench材料发现的合规政策。MPTrj是一个大型的DFT弛豫晶体结构数据库,主要由经过实验测试的晶体生成,包含94种元素、145,923种无机化合物,以及1,580,395个原子构型、1,580,395个能量、49,295,600个力、7,944,833个磁矩和14,223,555个应力。

原子结构数据在训练前被统一转换为字节块序列。超对称采用包含257,487个结构的Wang-Botti-Marques (WBM)数据集来评估在MPTrj上训练的BigBang-Proton在新材料发现方面的能力。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第15张

BigBang-Proton通过零样本提示方法进行语言引导的回归来计算原子间势能模拟。材料结构数据被分解为多个部分,每个部分都嵌入到相应的文本描述中。BigBang-Proton学习了整合了理论描述和实验数据的完整上下文,以做出最终推理。

与仅依赖数值数据进行回归的传统专用模型相比,这种方法利用了对齐的理论和实验上下文来进行回归。科学原理和事实,包括“化学式”、“组成”和“原子位点”,是上下文组成部分。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第16张

Matbench基准列出了13个任务,其中10个是回归任务,3个是分类任务。对于3个分类任务,超对称可以应用模型通过回归生成中间结果。超对称选择回归任务“形成能预测”来展示BigBang-Proton在语言引导的回归的能力。BigBang-Proton在形成能预测中实现了0.043 eV/atom的平均绝对误差(MAE),在Matbench排行榜上排名第11位。

BigBang-Proton的性能优于一些专用的机器学习方法,如AMMExpress(MAE=0.117 eV/atom)、表面络合模型RF-SCM(MAE=0.117eV/atom)、基于注意力的模型CrabNet(MAE=0.086 eV/atom)和特征选择模型MODNet(MAE=0.045 eV/atom),落后于专用的GNNs,如coGN(MAE=0.017 eV/atom)、ALIGNN(0.022 eV/atom)和SchNet(0.022 eV/atom)。

基于LLM的模型Matterchat在Matbench形成能预测中实现了0.121 eV/atom的均方根误差(RMSE),其误差显著大于BigBang-Proton。这表明,在专用GNN模型CHGNet的嵌入上训练的通用大语言模型并未获得与端到端训练的BigBang-Proton相同的材料结构理解能力。

虽然BigBang-Proton在MatBench榜单仅排在11位,但已经进入实用水平,考虑到这是一个在多学科数据上预训练的15亿参数的LLM,使用的是语言引导的回归方式,在LLM领域这是突破性的进展。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第17张

超对称团队将主流推理LLMs(包括DeepSeek R1 (MAE: 66.056 eV)、GPT-5 (MAE: 29.279 eV)、Claude Sonnet 4 (MAE: 57.377 eV) 和KIMI K2 (MAE: 517.006 eV))与BigBang-Proton (MAE: 0.043 eV)的形成能预测准确度进行了比较。

这些LLMs的结果跟可实用的水平有四到五个数量级的巨大差距。在零样本学习方案中,提示模型使用来自MPTrj测试数据集的原子结构作为输入,预测110组形成能。推理模型通常会生成冗长而复杂的推理步骤,特别是DeepSeek-R1,从解释数据集开始,进行一些简单的推断,如计算原子数量和能量值或数据集中的明显属性,这些推理绝大多数是错误或跟最终计算目标无关,对形成能做出最终猜测也跟真实值偏差巨大。这说明这些主流的LLMs,经过预训练后所获得的材料结构和计算方面的知识相当有限。

上海交通大学材料学院的高文旆老师参与了BigBang-Proton在材料计算任务的初期相关讨论,他说:“BigBang-Proton这样的融合多学科知识的模型和实验-理论学习的框架,对高熵材料的计算和材料基因组项目会有特别的作用。”

湖泊水质预测:语言引导的时空序列预测 Language-Guided Spatiotemporal Prediction

地球系统建模代表了人类理解并预测大气圈、水圈、冰冻圈、陆地表面和生物圈之间复杂相互作用的雄心勃勃的努力。在此框架内,水循环建模是一个关键组成部分,涵盖了海洋和大陆水系统。大陆水建模侧重于淡水系统,特别是湖泊和河流,它们是环境变化的哨兵,在全球生物地球化学循环中扮演着不成比例的重要角色。湖泊水质预测作为一个典型的跨学科任务,处于地球科学、湖沼学、生物学、化学、环境工程和经济学的交叉点,是地球系统建模中最具挑战性的方面之一。

与数值天气预报类似,许多用于水质预测的数值模型已通过机器学习方法开发出来。叶绿素-a浓度作为藻类生物量和生态系统健康的主要指标,是水质预测的关键因素。其内在的困难在于,叶绿素动态受多种因素控制,包括太阳辐射、温度、风、营养盐负荷、水体滞留时间、内部生物地球化学过程和人为影响。

在此任务中,BigBang-Proton的目标是根据叶绿素-a浓度的历史时空数据来预测水质。BigBang-Proton已在2.62亿字节的时空传感器数据上进行了预训练。Chao’du进一步在湖泊水质数据上对BigBang-Proton进行了微调。湖泊水质数据集由部署在中国无锡市五里湖的传感器收集。传感器每30秒收集一次数据,总共跨越2年。

80%的数据集用于训练,20%用于评估。该数据集包括带有日期信息的时间戳、由经纬度指定的精确位置,以及一套全面的水质参数。这些参数涵盖了营养盐(包括氨氮、总氮和总磷)、光学特性(如浊度、TSM、C550、SDD、CDOM吸收系数和高锰酸盐指数)、物理参数(如气温)以及作为预测目标变量的叶绿素-a(以μg/L为单位)。项目使用从湖泊中心区域的一个单一位置收集的数据进行训练。

使用BigBang-Proton进行湖泊水质语言引导的时空预测,方法是每个提示都以时间序列数据输入开始,然后明确指示模型根据给定上下文确定叶绿素-a浓度。这些由传感器生成的多因素时间序列数据定量地描述了物理世界指标的波动。时间序列建模被转换为BigBang-Proton的上下文内学习和推理。

结果表明,该模型在叶绿素-a浓度预测中实现了0.58 μg/L的MAE,和0.098的平均绝对百分比误差(MAPE),相比于目前的行业领先的机器学习时序预测模型,某研究使用在卫星数据上训练的模型实现了1.85 μg/L的MAE,而另一项研究则达到了0.998 μg/L的MAE和19.4%的MAPE。这表明BigBang-Proton的语言引导的时空序列预测达到了可以与SOTA竞争的水平。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第18张

叶绿素-a(Chl-a)的动态变化由12个上下文变量驱动,包括氨氮、浊度、总氮、总磷、悬浮物浓度、消光系数、气温、异物检测、塞氏盘深度、高锰酸盐指数、CDOM吸收系数和pH值,所有这些变量都是在时间和空间上测量的。

BigBang-Proton通过将它们复杂的非线性相互作用视为一个上下文内学习问题,消除了专用时间序列建模中所需的人工特征工程。BigBang-Proton中使用的建模方法可以扩展到湖泊系统之外,用于模拟更大尺度和更复杂的系统,从区域气候到地球系统。

德林海公司的技术总监杨元祥说:“BigBang-Proton展示了DeepSeek和ChatGPT都没有具备的能力,我们的团队可以随时通过对话来获取未来水质的预测结果,这是全球第一个水质预报系统,像天气预报一样,水务行业的上下游产业都需要用,是人工智能落地到绿水青山就是金山银山的出色案例。”

DNA, RNA, 蛋白质联合建模:语言引导的基因序列预测 Language-Guided Genome Modeling

BigBang-Proton在基因建模的多个核心指标全面超过了对标的SOTA生物基座模型Evo,而主流的通用LLMs在同样的基因序列预测任务的准确度依然处于随机猜测的水平。

Evo是斯坦福大学医学院发布的行业领先的生物基座模型,在DNA/RNA/蛋白质三种数据上联合训练和推理,目前已经发到第二版Evo 2。BigBang-Proton对标Evo第一版。在预训练阶段,超对称团队将与Evo相同的OpenGenome数据集(包含273亿个核苷酸token,约为Evo所用数据的十分之一)与粒子物理、材料结构、算术、传感器和通用文本数据集混合,预训练BigBang-Proton。

OpenGenome数据集包含超过8万个细菌和古菌基因组,以及数百万个预测的噬菌体和质粒序列,总计约3000亿个核苷酸token。出于安全考虑,训练数据中排除了感染真核宿主的病毒基因组。在下游任务阶段,BigBang-Proton进一步使用828亿个核苷酸token对预训练模型进行微调。BigBang-Proton总共学习了约1101亿token。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第19张

上图是使用BigBang-Proton进行基因序列补全的零样本示例。用户以一段初始的核苷酸DNA序列作为提示,模型生成后续序列以完成该序列。生成的核苷酸序列的准确性也体现在训练困惑度上。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第20张

在相同的实验设置下,团队对BigBang-Proton和Evo在计算预算扩展进行了详细比较。计算最优指的是在模型大小和训练token之间理论上最优的计算资源(FLOPs)分配,以实现最佳性能。在此比较中,超对称保持两个模型的数据集大小一致,并将评估困惑度(PPL)作为主要指标。

困惑度是序列建模任务中广泛使用的度量,值越低表示模型性能越好。BigBang-Proton (1.5B)与Evo (7B)在计算预算最优实验中的评估困惑度比较。BigBang-Proton仅使用了Evo三分之一的训练数据(1101亿vs3000亿token),就达到了更低的困惑度(PPL = 2.8),而Evo的最优PPL为3.1。

值得注意的是,BigBang-Proton的PPL趋势仍在持续下降,表明其仍有进一步收敛的潜力,而Evo已达到其最优性能。这有力地证明了BigBang-Proton在基因组建模方面的架构优越性。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第21张

超对称团队进一步评测用开源通用LLM在OpenGenome数据上微调,看主流LLM架构是否能学到DNA序列分布。他们使用12亿参数的Llama3在30亿OpenGenome token上使用LoRA微调后达到了6.23的PPL,15亿参数的Qwen2.5达到了6.89的PPL,比BigBang-Proton和Evo高得多的困惑度,凸显了它们在基因组建模方面的局限性。巨大的性能差距表明,主流LLMs中使用的BPE分词器从根本上破坏了对DNA核心核苷酸词汇(A, G, T, C)的理解。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第22张

团队进一步在上下文长度L=512个碱基对的情况下,评估了BigBang-Proton和其他主流通用LLM(包括DeepSeek-R1、ChatGPT-o1、Claude-3.5 Sonnet和Kimi)的下一个碱基预测准确率。BigBang-Proton达到56%的准确率,而DeepSeek-R1、ChatGPT-o1、Claude-3.5 Sonnet和Kimi的准确率分别为26.1%、25.0%、24.88%和25.95%。所有通用LLM的性能都处于随机水平即25%,表明这些模型从根本上未能学习到支配基因组序列的复杂统计模式、生物规则和位置依赖关系。

预测突变对蛋白质功能的影响

除了评估困惑度外,超对称团队进一步评估了模型在生物学相关下游任务上的零样本预测能力,其中预测突变对蛋白质功能的影响是关键任务之一。结果表明,BigBang-Proton能够有效预测突变的功能后果,在模型预测与实验适应度分数之间达到了0.78546的强斯皮尔曼相关系数(p值:4.94e-41)。

这显著优于表现最佳的SOTA模型Evo,后者在六个数据集中达到了0.67的最大斯皮尔曼相关系数和0.45的平均值。此外,超对称在同一任务上使用零样本测试将超对称的模型与其他几个先进模型进行了比较,DeepSeek R1的斯皮尔曼相关系数为-0.02,ChatGPT o1为-0.06,Claude 3.5 Sonnet为-0.11,KIMI为-0.02。这些比较凸显了超对称的模型在预测突变效应方面的卓越性能。

预测突变对非编码RNA功能的影响

BigBang-Proton结果表明,该模型在预测非编码RNA(ncRNAs)突变的功能效应方面表现出色。在Kobori等人(2015年)的DMS数据集上,BigBang-Proton达到了0.68的斯皮尔曼相关系数,显著优于Evo模型报告的最佳结果,后者在七个数据集的预测中达到了0.65的最大斯皮尔曼相关系数和0.25的平均值。

超对称在同一任务上使用主流通用LLMs进行了零样本测试,DeepSeek R1的结果为0.19,ChatGPT o1为-0.02,Claude 3.5 Sonnet为-0.16,KIMI为-0.01。结果表明,这些模型在DMS数据集上测试时获得的斯皮尔曼相关系数接近于零。

从调控DNA预测基因表达

鉴于BigBang-Proton训练数据也包含原核生物调控DNA序列,超对称进一步研究了该模型是否学习到了可用于调控DNA任务的有意义表示,从启动子序列预测基因表达。启动子是控制基因转录起始的关键调控DNA元件。团队评估了模型根据启动子序列预测基因表达水平的能力。BigBang-Proton在其预测与实验测量的基因表达水平之间达到了0.72的斯皮尔曼相关系数。这一性能显著优于Evo在同一任务上报告的最佳结果(斯皮尔曼相关系数为0.68)。

团队在同一任务上使用主流通用LLMs进行了零样本测试,DeepSeek R1的结果为0.11,ChatGPT o1为-0.14,Claude 3.5 Sonnet为0.06,KIMI为0.06。结果表明,这些模型在启动子序列数据集上通过提示测试时获得的斯皮尔曼相关系数接近于零。

接近零的相关值(0.11和0.06)表明,这些模型本质上是在进行随机预测,与实际的基因表达水平没有有意义的关系,其表现仅略高于随机猜测的预期水平。ChatGPT o1的-0.14负相关系数表明,其预测不仅不正确,而且与真实表达水平呈负相关。

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第23张

BigBang-Proton以1.5B的参数,约五分之一的Evo参数量,以及三分之一的Evo训练数据量,在困惑度以及基因变异功能预测三个任务上都胜出Evo,显示了二进制块编码和实验-理论学习架构在理解DNA序列分布上的优势。

实验结果同时也展示了主流通用LLM无法直接学习DNA核苷酸序列,这有力说明了基于BPE编码的通用LLM架构无法直接从互联网数据延伸至物质结构。

超对称公司与波士顿大学&湘雅医学院的生物学家马龙教授合作,在BigBang-Proton基因组建模的基础上进一步开发虚拟细胞。马龙教授说:“相比于现有的生物基础大模型,BigBang-Proton这样的多学科基座模型天然适合全细胞模拟,细胞不仅包含DNA, RNA, 蛋白质,还涉及细胞液,细胞核,离子通道等物理化学动力学过程,BigBang-Proton在掌握量子力学,分子动力学的基础上从原子尺度模拟全细胞具有优势。”

3 Scaling Law的边界:从科学多任务学习到宇宙尺度压缩

BigBang-Proton模型突破:统一多学科科学任务的LLM新路径挑战AGI主流路线 大语言模型  科学计算 物质结构学习 人工智能 第24张

超对称团队发现,通过提示语BigBang-Proton能生成一个由夸克衰变产生的末态粒子组成的准喷注。BigBang-Proton展示了生成近乎真实粒子数据的卓越能力,准确地再现了关键物理量,包括横向碰撞参数(d0)、纵向碰撞参数(z0)和粒子类型分配(电子、μ子、带电π介子)。

该模型在动量守恒(Px2+Py2=Pt2)上表现出1.24%的偏差,并正确理解只有带电粒子才能拥有径迹碰撞参数。这些结果表明,BigBang-Proton已经学习了支配喷注结构、生成和相互作用的底层物理关系和动力学,使其能够生成与现实世界观测结果非常相似的数据。

BigBang-Proton能直接生成一个基本符合物理定律约束的准粒子喷注,说明其掌握了物质的微观结构。前面的实验结果表明,深入到基本物质结构层面,基于自然语言的长程思维链方法在学习由实验测量所描述的物理结构的能力方面遭遇了彻底的失败。

作为人类对世界结构理解的一种表征,人类语言仅构成了对现实描述的一小部分。在这种情况下,即使无限的思维链也无法导向对物质结构的确定性理解。长程思维链是实现AGI的一种不完整方法。在此基础上超对称团队提出,物质结构学习是实现AGI必不可缺的部分。

从BigBang-Proton的实验结果出发,超对称公司提出假设:自回归LLM的Scaling Law尚未见顶。继续扩展LLMs将进入物质世界,极限是宇宙的边界。LLMs的预训练最终将收敛到大爆炸时刻的基本物理定律以及信息与物质的交汇点

超对称公司提出了宇宙尺度压缩(Universe Compression)的构想,暂不考虑现实中计算资源和数据的挑战,在一个二进制序列中重建物理世界。首先,建立一个统一的时空框架,跨越宇宙、星系、地球到夸克尺度,将每个自由度置于一个一致的时空结构中。

其次,整合人类科学研究在所有尺度、结构和学科上产生的所有理论和实验数据,这相当于整个可观测宇宙历史的总体数据内容。

最后,通过整合所有天然材料和人造物体及活动(包括建筑、城市、工厂、车辆、飞机以及经济、政治、战争等)的数据,从夸克尺度出发重建地球和人类文明。BigBang-Proton的三项技术创新,二进制块编码(Binary Patch Encoding),理论-实验学习范式,蒙特卡罗注意力(Monte Carlo Attention)为宇宙尺度压缩提供了完善的技术基础。

“BigBang-Proton的技术创新是在宇宙尺度压缩这个目标的倒逼下产生的,我们需要找到面向所有物质结构的普适表征方法,最后发现利用计算机原生的二进制最有效;我们需要从微观粒子出发复现宇宙尺度的物理结构,需要同样规模的上下文长度,开发出了Monte Carlo Attention。我们需要全量人类对物质世界观测的数据,所以有理论-实验学习范式。”超对称公司首席科学家吴恒魁说。

当被问及为什么不用流行的Science Agents方式来解决科学任务,吴恒魁说:“science agents的问题是没有把对物质结构进行观测的实验结果放到同一个上下文隐空间,就无法形成真正的跨学科迁移学习。我们的目标是将整个宇宙当做一个整体,这样就能形成传统学科分类上差别极大的任务之间互相交流和对话,恒星的形成和DNA序列之间是不是有直接联系?高温超导和育种有没有关系?这是全新的科学。

另外我们认为LLM这项技术就不是一种类人的智能,Agent未必能实现类人的自主性。甚至我们对智能本身也没有执念,把智能的标签移开,我们认为LLM是大自然局部的统计分布的映射,将LLM推到极致,获得大自然全局的统计分布,这是确定的。”

超对称公司的下一步工作是将BigBang模型的语言推理能力推到现有SOTA水平基础上去模拟更复杂的物质结构,为宇宙尺度压缩打基础,包括宇宙大爆炸过程、核聚变、高温超导、虚拟细胞系统、地球系统、机器人和飞行器。

目前超对称公司和中国高能物理所在大对撞机(CEPC)和高海拔宇宙观测站(Large High Air Altitude Shower Observatory)进行合作,尝试用BigBang-Proton为粒子对撞和高能量宇宙射线两种截然不同的物理研究对象和不同大科学装置联合建模。

超对称公司和合肥科学岛的强磁场中心进行了多轮讨论,利用BigBang-Proton的数值分析能力来对强磁运行进行诊断。强磁是核聚变装置基础部件,超对称团队和国内核聚变实验室以及创业公司正进一步探讨将BigBang-Proton应用到下一代核聚变装置的研发。高温超导是核聚变实验的基础材料,超对称公司和南京大学闻海虎高温超导重点实验室合作,攻关高温超导原理这个未解之谜,以及跟上海交大材料学院高文旆实验室合作开发高熵材料的高通量计算和高通量实验方案。

虚拟细胞是当前全球前沿实验室追逐的目标,超对称公司和湘雅医学院马龙教授合作,用具有多学科知识的BigBang-Proton建模细胞系统。在着手宇宙尺度压缩之前,超对称公司首先进行地球系统压缩,从大气到洋流,地壳到地幔,地核,以及地表建筑,训练在一个统一基座上,这样的全物理空间建模所构建的世界模型,是具身智能必不可少的基础。而BigBang-Proton从原子尺度复现飞机、汽车这种最复杂的人造物质结构,将推动生产制造的快速迭代。

开源链接:

https://arxiv.org/abs/2510.00129

https://github.com/supersymmetry-technologies/BigBang-Proton

https://huggingface.co/SuperSymmetryTechnologies/BigBang-Proton