蛋白质折叠,一直是计算生物学中的一大挑战,对药物研发等领域影响深远。
如果将蛋白质折叠比作视觉领域的生成模型,氨基酸序列就像「提示词」,而模型输出则是原子的三维坐标。
受这种思维启发,研究人员开发了一个基于标准Transformer模块与自适应层的通用且强大的架构——SimpleFold。
论文地址:https://arxiv.org/abs/2509.18480
那么,SimpleFold与AlphaFold2等经典蛋白质折叠模型有何不同?
AlphaFold2、RoseTTAFold2等通过融合复杂且高度专业化的架构,如三角更新、成对表示、多序列比对(MSA)。
这些设计往往是将我们对结构生成机制的已有理解「硬编码」到模型中,而非让模型从数据中自主学习生成方式。
SimpleFold则提出了全新的思路:
无需三角更新、成对表示,也不必依赖MSA,而是完全基于通用Transformer和流匹配(flow-matching),直接将蛋白质序列映射为完整的三维原子结构(见图1)。
流匹配将生成视作一段随时间推进的旅程,用常微分方程(ODE)做轨迹积分,就像冲洗照片一样,噪声也一点点被「冲洗」成清晰的结构。
在蛋白质折叠上,SimpleFold也复现了这段旅程:
输入是氨基酸序列这串「提示词」,输出是全原子三维「照片」,类似于视觉里的「文生图」或「文生三维」任务。
自AlphaFold2以来,诸如三角更新、单体与对表示交互等组件被广泛应用于蛋白质折叠模型,但这些设计是否必要尚未定论。
SimpleFold在设计上大胆创新,仅采用通用Transformer模块构建架构(对比见图5)。
SimpleFold架构由三部分组成:轻量原子编码器、重型残基主干、轻量原子解码器(见图2)。
这套「细—粗—细」的层级策略,在速度与精度之间找到了良好的平衡点。
与以往方法不同,SimpleFold不使用对表示,也不依赖MSA或PLM的注意力初始化。
为了研究SimpleFold框架在蛋白质折叠任务中的扩展能力,研究人员训练了一系列不同规模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B)。
模型规模扩大不只是增加参数,随着模型规模的增加,研究人员在原子编码器、解码器和残基主干网络也进行了全链路升级(详见表5)。
在CAMEO22和CASP14这两个广泛使用的蛋白质结构预测基准上,研究人员评估了SimpleFold的性能。
这两个基准测试对泛化能力、鲁棒性以及原子级准确性要求较高。
采用生成式目标的好处在于:SimpleFold可直接建模结构分布,而非仅输出单一「定稿」。
因此,同一条氨基酸序列,它既能生成一个确定性的结构,还能生成多个不同构象组成的结构集合。
为了研究SimpleFold在蛋白质折叠任务中的扩展效应,研究人员训练了从1亿参数到30亿参数不等的多个模型版本。
Yuyang Wang
Yuyang Wang现为苹果机器学习研究(MLR)的一名人工智能研究员,致力于研究构建通用的扩散模型。
Yuyang Wang获卡内基梅隆大学(CMU)博士学位,长期从事生成式模型与科学计算的交叉研究。
其研究兴趣集中在flow-matching/扩散等通用生成模型及其在图像、3D、图与分子体系中的表示与推断,并探索以通用Transformer解决蛋白质结构建模等问题。
除论文外,Yuyang Wang重视开源与可复现性,经常与跨学科团队协作,推进药物发现与蛋白设计等应用。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542035.html