当前位置:首页 > 科技资讯 > 正文

SimpleFold:基于Transformer的蛋白质折叠生成模型突破

蛋白质折叠作为计算生物学的核心挑战,持续对药物研发等关键领域产生深远影响。

将蛋白质折叠类比视觉生成模型,氨基酸序列充当“提示词”,模型输出则对应原子的三维坐标。

受此灵感启发,研究团队构建了一个基于标准Transformer模块与自适应层的通用强大架构——SimpleFold。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第1张

论文地址:https://arxiv.org/abs/2509.18480

SimpleFold与AlphaFold2等经典蛋白质折叠模型有何差异?

AlphaFold2、RoseTTAFold2等模型融合了复杂且高度专业化的组件,如三角更新、成对表示和多序列比对(MSA)。

这些设计往往将结构生成机制的已有知识“硬编码”到模型中,而非让模型从数据中自主学习。

SimpleFold提出了一种全新思路:

无需三角更新、成对表示或MSA,完全基于通用Transformer和流匹配(flow-matching),直接实现从蛋白质序列到完整三维原子结构的映射(见图1)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第2张

SimpleFold

首个基于Transformer模块的蛋白折叠模型

流匹配将生成过程视为随时间推进的旅程,通过常微分方程(ODE)进行轨迹积分,类似照片冲洗,噪声逐渐“冲洗”成清晰结构。

SimpleFold在蛋白质折叠中复现这一旅程:

输入是氨基酸序列“提示词”,输出是全原子三维“照片”,类似于视觉领域的“文生图”或“文生三维”任务。

自AlphaFold2以来,三角更新、单体与对表示交互等组件被广泛使用,但其必要性尚未定论。

SimpleFold在设计上大胆创新,仅采用通用Transformer模块构建架构(对比见图5)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第3张

SimpleFold架构由三部分组成:轻量级原子编码器、重型残基主干网络和轻量级原子解码器(见图2)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第4张

这套“细-粗-细”层级策略,先关注微观细节,再把握全局结构,最后补充细节,在速度与精度间实现平衡。

与以往方法不同,SimpleFold不使用对表示,也不依赖MSA或蛋白语言模型(PLM)的注意力初始化。

相比于依赖等变架构的工作,SimpleFold完全基于非等变Transformer构建。

为处理蛋白质结构旋转对称性,研究者在训练中引入SO(3)数据增强,随机旋转目标结构,让模型学习对称性。

实验评估

为探索SimpleFold框架在蛋白质折叠任务中的扩展性,研究者训练了不同规模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B)。

模型扩展不仅是增加参数,随着规模增大,原子编码器、解码器和残基主干网络均全面升级(详见表5)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第5张

训练过程中,研究者借鉴AlphaFold2策略,每个蛋白在每张GPU上复制Bc份,抽取不同时间步t,再从Bp个蛋白累积梯度(具体设置见表6)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第6张

实验表明,该策略相比直接随机选择蛋白组成批次,能带来更稳定的梯度和更优模型性能。

研究者在CAMEO22和CASP14两个广泛使用的蛋白质结构预测基准上评估SimpleFold性能。

这两个基准对泛化能力、鲁棒性和原子级准确性要求较高。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第7张

表1总结了CASP14和CAMEO22的评估结果。

研究者根据蛋白序列信息提取方式将模型分为两类:基于MSA检索的方法(如RoseTTAFold、RoseTTAFold2和AlphaFold2)和基于蛋白语言模型(PLM)的方法(如ESMFold和OmegaFold)。

此外,根据训练目标是否为生成式目标(如扩散、流匹配或自回归)对基线模型标注,以区分直接结构回归模型。

有趣的是,从AlphaFold2、ESMFold微调为流匹配的AlphaFlow、ESMFlow,整体指标反而不如原版回归模型。

研究者认为,这是因为蛋白质折叠基准如CAMEO22和CASP14通常只提供一个“真实”结构目标,这对确定性逐点预测的回归模型更有利。

尽管架构简洁,SimpleFold性能依然出色。

在两个基准测试中,SimpleFold一致优于同为流匹配方法、基于ESM嵌入的ESMFlow。

在CAMEO22上,SimpleFold表现与当前最先进模型(如ESMFold、RoseTTAFold2和AlphaFold2)相当。

更重要的是,不使用三角注意力和MSA,SimpleFold在多数指标上能达到RF2/AF2性能的95%以上。

在更具挑战性的CASP14中,SimpleFold甚至超越了ESMFold。

SimpleFold跨基准的性能下降较小,表明它不依赖MSA也能稳健泛化,应对更复杂结构预测任务。

研究者还报告了不同规模SimpleFold模型的表现。

即使最小的SimpleFold-100M,在CAMEO22上也能实现ESMFold性能的90%以上,进一步证明基于通用结构模块构建蛋白质折叠模型的可行性。

随着模型规模提升,SimpleFold在各项指标上持续改进,显示通用可扩展架构在折叠任务中的优势。

尤其在更具挑战性的CASP14上,模型扩大带来的性能增益更明显。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第8张

图3(a)展示了一个包含pLDDT预测值的结构示例,红色和橙色表示低预测置信度,蓝色表示高置信度。

可见,SimpleFold对大多数次级结构预测自信,而在柔性环区域表现出不确定性。

图3(b)和(c)展示了pLDDT与实际LDDT-Cα的对比分析。

SimpleFold的结构集合生成能力

采用生成式目标的好处是:SimpleFold可直接建模结构分布,而非仅输出单一结构。

因此,同一氨基酸序列,它能生成确定性结构,也能生成多个不同构象的结构集合。

为验证此能力,研究者在ATLAS数据集上测试。

该数据集用于评估分子动力学(MD)结构集合生成,包含1390个蛋白质的全原子MD模拟结构。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第9张

表2展示了SimpleFold与多个基线模型在ATLAS上的对比结果(不同规模SimpleFold模型见表9)。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第10张

所用指标全面评估生成结构集合质量,包括柔性预测、分布准确性和集合可观测性。

如表2所示,SimpleFold在多个评估指标上持续优于同样依赖ESM表征的ESMFlow-MD。

同时,在暴露残基与互信息矩阵等关键可观测性上,SimpleFold也胜过AlphaFlow-MD,有助于发现药物研发中常见的“隐性口袋”。

研究者还评估了SimpleFold对天然具有多种构象状态蛋白质的结构建模能力。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第11张

如表3所示,在Apo/holo数据集上,SimpleFold取得当前最优表现,显著超越AlphaFlow等强大MSA方法。

在Fold-switch数据集上,SimpleFold表现与ESMFlow相当或更优。

整体上,SimpleFold性能随模型规模增加而提升,进一步展示该框架在蛋白质结构集合生成方面的潜力。

在蛋白质折叠中的扩展效应

为研究SimpleFold在蛋白质折叠任务中的扩展效应,研究者训练了从1亿到30亿参数不等的多个模型版本。

所有模型使用完整预训练数据,包括PDB、AFDB中的SwissProt以及筛选后的AFESM。

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第12张

图4(a)-(d)展示了模型规模对折叠任务性能的影响(另见图1(d))。

结果表明,更大规模的模型在训练资源更充足时(如更多FLOPs和迭代次数)表现更好。

这证明SimpleFold的可扩展性,为通用生成模型在生物领域大规模应用提供可行路径。

研究者还研究了训练数据规模扩展对模型表现的影响:使用SimpleFold-700M模型,在不同规模数据集上训练。

如图4(e)-(f)所示,随着训练数据中唯一结构数量增加,在40万次迭代后,模型性能持续提升。

这些结果证明:简洁、可扩展的折叠模型能从日益丰富的实验与模型数据中持续受益。

作者简介

Yuyang Wang

SimpleFold:基于Transformer的蛋白质折叠生成模型突破 蛋白质折叠 Transformer架构 流匹配 人工智能研究 第13张

Yuyang Wang目前是苹果机器学习研究(MLR)的人工智能研究员,专注于构建通用扩散模型。

Yuyang Wang拥有卡内基梅隆大学(CMU)博士学位,长期从事生成式模型与科学计算的交叉研究。

其研究兴趣包括flow-matching/扩散等通用生成模型,以及在图像、3D、图和分子系统中的表示与推断,并探索用通用Transformer解决蛋白质结构建模等问题。

除论文外,Yuyang Wang重视开源与可复现性,经常与跨学科团队合作,推进药物发现与蛋白设计等应用。

参考资料:

https://arxiv.org/abs/2509.18480