NVIDIA研究团队携手加拿大魁北克人工智能研究所Mila,共同推出了La-Proteina,这是一种基于部分潜在流匹配的原子级蛋白质设计方法。这种方法有效结合了显式的backbone建模和固定大小的每个残基潜在表示,能够捕捉序列和原子侧链信息,解决了蛋白质生成过程中显式侧链表示的维度可变性这一关键挑战。
设计具有特定结构和功能的新型蛋白质,在药物研发、生物工程等领域具有巨大的应用潜力。然而,捕捉蛋白质序列和结构之间的关系,一直是从头设计蛋白质的一大难题。以往的方法通常将蛋白质序列和结构的设计分开进行,例如先生成序列再进行折叠,或者先设计backbone再确定序列。然而,精确建模蛋白质序列和全原子结构的联合分布,实现功能位点的精细控制,仍然极具挑战性。
在这样的背景下,NVIDIA研究团队和Mila提出了La-Proteina,这种方法基于部分潜在流匹配,能够结合显式的backbone建模和固定大小的每个残基潜在表示,解决了这一关键挑战,为蛋白质设计领域带来了新的突破。
相关研究成果以「La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching」为题,发表在arXiv。
研究亮点:
* 提出了一个部分隐式流匹配框架La-Proteina,专为联合生成蛋白质序列和完全原子级结构而设计,有效结合了明确的主链建模和固定大小的每个残基的隐表示。
* 在广泛的基准实验中,La-Proteina在无条件蛋白质生成方面达到了SOTA性能,能够生成多达800个残基的多样化、可共同设计且结构有效的完全原子级蛋白质。
* 该研究成功将La-Proteina应用于索引和非索引原子级基序支架设计,均证明了模型优于以往的全原子生成器。
该研究使用了两个训练无条件模型的数据集:一为经Foldseek聚类的AFDB数据集,源自AlphaFold数据库(AFDB)的筛选与聚类;二为用于长序列训练的定制AFDB子集。这些数据集为模型提供了丰富样本,助力其学习更广泛的蛋白质序列和结构特征。
此外,蛋白质数据包含序列(20种残基类型)和3D结构信息,借助Atom37表示法统一存储。这种标准化方式为不同残基的结构信息提供了统一的存储和表示方法,为模型统一处理不同残基的结构信息奠定了基础。
La-Proteina是一种针对原子级蛋白质设计的创新模型,其核心设计围绕“部分隐式表示”展开。考虑到全原子结构生成需兼顾大规模backbone、氨基酸类型及侧链的挑战,La-Proteina提出将每个残基的原子级细节和残基类型编码到固定长度的连续隐空间,同时通过α-碳坐标保持明确的主链建模。
从组成结构来看,La-Proteina核心由编码器(encoder)、解码器(decoder)和去噪器(denoiser)三个神经网络构成,三者共享基于Transformer的核心架构。训练方式上,采用两阶段训练策略:第一阶段训练条件变分自编码器(VAE),第二阶段则优化流匹配模型以近似目标分布。
为验证La-Proteina的性能,研究团队围绕无条件原子级蛋白质生成和原子基序支架设计两大方向展开了一系列实验。结果显示,在无条件原子级蛋白质生成实验中,La-Proteina的两个变体在全原子协同设计能力、设计能力和多样性方面均优于所有基线方法;在原子基序支架设计实验中,La-Proteina在所有四种评估设置下均大幅优于唯一可比的全原子基线方法。
在蛋白质设计领域,La-Proteina等原子级蛋白质设计方法引起了学术界和企业界的广泛关注。一些研究团队致力于改进蛋白质生成模型的性能和可扩展性;一些企业则致力于将蛋白质设计技术与人工智能和机器学习相结合。这些努力为蛋白质设计领域的发展提供了丰富的经验和技术支持。
随着技术的不断进步,相信未来蛋白质设计将在更多领域发挥重要作用。
本文由主机测评网于2026-04-15发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437569.html