当前位置:首页 > 科技资讯 > 正文

SimpleFold:基于Transformer的蛋白质折叠新纪元

蛋白质折叠,一直是计算生物学中的一大挑战,对药物研发等领域影响深远。

如果将蛋白质折叠比作视觉领域的生成模型,氨基酸序列就像「提示词」,而模型输出则是原子的三维坐标。

受这种思维启发,研究人员开发了一个基于标准Transformer模块与自适应层的通用且强大的架构——SimpleFold。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第1张

论文地址:https://arxiv.org/abs/2509.18480

那么,SimpleFold与AlphaFold2等经典蛋白质折叠模型有何不同?

AlphaFold2、RoseTTAFold2等通过融合复杂且高度专业化的架构,如三角更新、成对表示、多序列比对(MSA)。

这些设计往往是将我们对结构生成机制的已有理解「硬编码」到模型中,而非让模型从数据中自主学习生成方式。

SimpleFold则提出了全新的思路:

无需三角更新、成对表示,也不必依赖MSA,而是完全基于通用Transformer和流匹配(flow-matching),直接将蛋白质序列映射为完整的三维原子结构(见图1)。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第2张

SimpleFold:首个基于Transformer模块的蛋白折叠模型

流匹配将生成视作一段随时间推进的旅程,用常微分方程(ODE)做轨迹积分,就像冲洗照片一样,噪声也一点点被「冲洗」成清晰的结构。

在蛋白质折叠上,SimpleFold也复现了这段旅程:

输入是氨基酸序列这串「提示词」,输出是全原子三维「照片」,类似于视觉里的「文生图」或「文生三维」任务。

自AlphaFold2以来,诸如三角更新、单体与对表示交互等组件被广泛应用于蛋白质折叠模型,但这些设计是否必要尚未定论。

SimpleFold在设计上大胆创新,仅采用通用Transformer模块构建架构(对比见图5)。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第3张

SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干、轻量原子解码器(见图2)。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第4张

这套「细—粗—细」的层级策略,在速度与精度之间找到了良好的平衡点。

与以往方法不同,SimpleFold不使用对表示,也不依赖MSA或PLM的注意力初始化。

实验评估

为了研究SimpleFold框架在蛋白质折叠任务中的扩展能力,研究人员训练了一系列不同规模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B)。

模型规模扩大不只是增加参数,随着模型规模的增加,研究人员在原子编码器、解码器和残基主干网络也进行了全链路升级(详见表5)。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第5张

性能对比与评估

在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上,研究人员评估了SimpleFold的性能。

这两个基准测试对泛化能力、鲁棒性以及原子级准确性要求较高。

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第6张

结构集合生成能力

采用生成式目标的好处在于:SimpleFold可直接建模结构分布,而非仅输出单一「定稿」。

因此,同一条氨基酸序列,它既能生成一个确定性的结构,还能生成多个不同构象组成的结构集合。

在蛋白质折叠中的扩展效应

为了研究SimpleFold在蛋白质折叠任务中的扩展效应,研究人员训练了从1亿参数到30亿参数不等的多个模型版本。

作者简介

Yuyang Wang

SimpleFold:基于Transformer的蛋白质折叠新纪元 SimpleFold 蛋白质折叠 Transformer 流匹配 第7张

Yuyang Wang现为苹果机器学习研究(MLR)的一名人工智能研究员,致力于研究构建通用的扩散模型。

Yuyang Wang获卡内基梅隆大学(CMU)博士学位,长期从事生成式模型与科学计算的交叉研究。

其研究兴趣集中在flow-matching/扩散等通用生成模型及其在图像、3D、图与分子体系中的表示与推断,并探索以通用Transformer解决蛋白质结构建模等问题。

除论文外,Yuyang Wang重视开源与可复现性,经常与跨学科团队协作,推进药物发现与蛋白设计等应用。