针对传统蛋白设计的局限,如依赖物理计算、成本高、设计空间受限及多模态目标处理困难,麻省理工学院与多家机构合作推出了BoltzGen,以几何连续表示替代传统离散残基标签,实现蛋白折叠与结合体设计的联合训练,并构建了灵活的设计规范语言,实现了跨分子类型的可控生成,提升了模型的设计效率、通用性和可解释性。
在药物研发和生物分子工程领域,「De-novo蛋白设计(De-novo Binder Design)」是药物研发自动化的核心方法。研究人员能借助计算模拟与深度学习,在特定靶点上生成具有结合能力的肽链或蛋白结构,推动抗体、纳米抗体、环肽等新型药物形态的开发。
然而,传统蛋白设计策略多依赖分子动力学模拟等物理计算及序列优化算法,尽管在单个体系中能达到高精度,但存在计算成本高、设计空间受限,且难以同时处理蛋白质小分子和RNA等多模态目标的问题。而目前的深度生成模型虽提高了生成速度,却普遍缺乏「原子级别」的结构推理能力,通用性有限。此外,其模型评估常依赖训练集中已有相似复合物,难以验证对「未见靶点」的泛化能力,缺乏可控的生成机制与灵活的结构约束表达。
针对上述问题,麻省理工学院与Boltz等机构合作提出了统一结构预测与结合体设计的「全原子生成模型(All-atom Generative Model)」BoltzGen。该模型不仅以几何连续表示替代传统离散残基标签,在单一体系中实现蛋白折叠与结合体设计的联合训练,而且构建了灵活的「设计规范语言」,实现了跨分子类型的可控生成。
实验结果显示,BoltzGen在纳米抗体与蛋白结合体设计中,66%的目标获得了纳摩尔级亲和力,首次证明了「单一模型体系」可在多模态生物分子设计中实现折叠与结合性能的同步最优。
目前,相关研究成果以「BoltzGen: Toward Universal Binder Design」为题发布。GitHub地址:https://github.com/HannesStark/boltzgen
研究亮点:
* 在单一全原子生成模型中统一了结构预测与结合体设计,实现了原子级精度下的蛋白折叠、结合位点建模与序列生成,提升了分子设计的物理合理性与可控性;
* 提出通用的「设计规范语言」,使模型能在蛋白质、纳米抗体、环肽、小分子等不同体系中灵活切换,实现跨模态的结构生成与约束控制。
论文地址:https://go.hyper.ai/3sx2K 研究团队在训练BoltzGen时采用了多层次、跨模态的联合训练框架,使用的数据集核心来源包括3类: * 来自Protein Data Bank(PDB)的高质量实验解析结构; * 来自AlphaFold Database(AFDB)并由AlphaFold2预测并再学习的实验数据; * Boltz-1模型生成的复合结构样本。 为防止模型过度偏向特定结构类型,研究团队剔除了抗体与TCR的上采样数据集,保持生成空间的多样性。同时,所有结构样本在训练过程中均经过随机裁剪与多任务化处理,使模型在每一次训练迭代中承担不同任务,实现统一的多功能学习框架。 该模型保留了AlphaFold3和Boltz-2架构的主要组件,并进行了部分改进以引入更多条件输入。 如下图所示,整个模型分为两个主要部分:一个较大的Trunk(主干网络)以及一个Diffusion Module(扩散模块)。其中,Trunk负责生成用于条件控制的token表征和pairwise(成对)表征,而扩散模块则在此基础上生成三维结构。Trunk仅运行一次,而扩散模块会多次迭代运行以逐步去噪所有原子的三维坐标。 在Trunk阶段,其与Boltz-2的Trunk模块相似,解析输入的蛋白结构与目标信息。Trunk模块处理的是经过token化的分子结构,主体采用PairFormer架构,通过三角注意力高效建模原子间的空间关系;同时结合几何残基编码在连续空间中推断残基类型与原子坐标。 在Diffusion Module阶段,该模块接收带噪声的三维原子坐标作为输入并预测其去噪后的坐标。同时采用标准的Transformer架构在原子层级和token层级上共同运行。BoltzGen利用连续空间扩散模型对原子坐标进行逐步「去噪」生成通过预测噪声向量实现从随机初态到稳定构象的转化。 在实验部分,BoltzGen模型的性能验证覆盖了从蛋白质到肽类从新型病原体到小分子靶标的多个维度展现出卓越的泛化与可控性。 团队在8个独立的湿实验验证项目中共测试了26个靶标涉及纳米抗体、蛋白质、线性与环状肽等多种结合体类型。结果显示在未见过的复杂目标上BoltzGen依然保持了高成功率:在9个与训练数据完全不同的新靶标实验中设计的蛋白质与纳米抗体在66%的靶标上获得纳摩尔级(nM)高亲和力结合。 在针对多样结构的生物活性肽实验中BoltzGen设计的蛋白质能以纳摩尔至微摩尔(μM)级的亲和力结合不同类型的肽分子并中和其抗菌或溶血活性。针对急性髓系白血病相关的无序蛋白NPM1模型生成的多肽在活细胞中表现出核仁共定位提供了首个体内证据支持AI设计的蛋白可与天然无序蛋白结合。 2024年麻省理工学院Jameel Clinic研究团队推出了Boltz-1模型在全球药物设计领域从「结构预测」向「功能生成」迁移的行业风向下虽然AlphaFold系列模型率先揭示了蛋白质折叠问题的可计算性但AlphaFold3未完全开源局限了产业界在真实药物场景中的自由迭代。 于是Boltz-1在这一背景下应运而生。它不仅在性能上接近AlphaFold3而且完全开源、可商用推动分子结构预测进入了行业的开放生态。 Boltz-1采用扩散模型与Transformer架构相结合的生成体系能够在原子级别预测蛋白质、RNA、DNA及小分子复合物结构。其灵活的条件化接口让模型能针对特定结合位点或分子构象进行精准建模极大拓宽了其产业应用范围从新型抗体设计、酶工程优化到小分子配体筛选都能在Boltz-1框架下实现端到端预测降低了生物计算的进入门槛。
混合数据集:多模态的训练策略
模型架构:从噪声到结构的全原子推理
实验结果:跨越26个靶点的通用设计验证
从预测到生成,Boltz系列重塑AI驱动的分子设计版图
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543401.html