在人类基因组中,存在着大约20000个与疾病密切相关的蛋白质编码基因。然而令人遗憾的是,迄今为止,仅有约10%的基因能够被当前药物有效靶向,绝大多数潜在靶点仍处于“无药可及”的状态。
长期以来,科学家们依赖“分子对接”技术进行药物的虚拟筛选,这种方法不仅周期长、成本高昂,而且面对庞大的靶点数量时显得力不从心,难以实现大规模并行计算。为了突破这一瓶颈,科学界一直在寻找一种更为高效且稳健的计算方法,以加速新药发现进程。
就在近期,清华大学领衔的研究团队公布了一项突破性成果:他们首创了一种基于“AI对比学习”的DrugCLIP框架,为药物筛选带来了全新思路。
据介绍,该框架能够以超乎想象的效率完成虚拟筛选任务,其速度最高可比传统分子对接方法快10万倍,并在多项计算机模拟基准测试中持续优于多种基线方法,展现出卓越的鲁棒性和准确性。相关研究成果已发表于国际顶级期刊Science。
论文链接:https://www.science.org/doi/10.1126/science.ads9530
该论文的5位共同一作均来自清华大学,分别是Yinjun Jia、Bowen Gao、Jiaxin Tan、Jiqing Zheng、Xin Hong。通讯作者为:清华大学万国数据教授&智能产业研究院(AIR)副院长兰艳艳、清华大学生命科学学院助理教授张伟、清华大学生命科学学院副教授闫创业、清华大学化学系教授刘磊。
DrugCLIP 的核心创新在于将传统的虚拟筛选任务重新定义为一种密集检索问题,这一视角的转变极大简化了计算流程。
具体而言,模型首先将蛋白质结合口袋和小分子分别编码为高维向量,并将它们映射到同一个共享表示空间中。通过对比学习策略,模型拉近能够真实结合的蛋白-配体对(正样本)的向量距离,同时推远随机配对的无关分子(负样本)。这样一来,在实际筛选时,只需计算向量间的相似度,即可快速锁定最有可能结合的候选小分子,使虚拟筛选从繁重的物理计算转变为高效的向量检索。
图|DrugCLIP 框架
1.训练流程
在预训练阶段,研究团队开发了ProFSA框架,从已知蛋白质结构中自动生成大规模合成训练数据。他们基于蛋白质数据库PDB构建了约550万对样本,通过将蛋白内部的短肽片段视为“伪配体”、周围区域视为“伪结合口袋”,让模型在没有真实小分子配体的情况下提前学习结合规律——因为蛋白质内部的相互作用与小分子结合在物理化学本质上高度相似。
随后,团队利用真实解析的蛋白–小分子复合物对预训练模型进行微调。考虑到虚拟筛选中通常无法获取分子的真实结合构象,他们采用RDKit生成随机构象进行数据增强,使模型更贴近实际应用场景。
最终,在实际筛选时,DrugCLIP只需计算向量相似度即可完成排序,大幅提升效率,为超大规模药物研发提供了可行的技术路径。
2.GenPack 策略
在通过计算机模拟和湿实验验证DrugCLIP模型的有效性之后,研究团队将其进一步应用于计算预测得到的蛋白质结构。由于DrugCLIP对蛋白侧链的误差并不敏感,为了充分释放预测结构的潜力,他们提出了GenPack策略。
GenPack通过固定蛋白骨架条件下生成候选分子,反向“引导”蛋白口袋进入更有利于结合的状态,并进行结构精修。借助这一策略,DrugCLIP在AlphaFold2预测结构和apo结构上的活性分子富集能力均显著提升,整体性能优于此前常用的基于物理模型的方法。
研究团队使用DrugCLIP模型对来自ZINC和Enamine REAL数据库的5亿多种类药小分子进行了大规模虚拟筛选。整个过程共完成了超过10万亿次蛋白–配体打分计算,但令人惊叹的是,这仅仅在一台配备8张A100 GPU的计算节点上、约24小时内便顺利完成,充分彰显了该方法在效率上的压倒性优势。
最终,他们构建了GenomeScreenDB数据库,覆盖近1万个人类靶点、2万多个结合口袋,共收录200多万个潜在命中小分子。相关分子结构、对接构象及评分信息均已对外开放,开创了后AlphaFold时代药物研发的新范式。
图|全基因组虚拟筛选结果的t-SNE可视化及示例。
实验表明,DrugCLIP速度最高可比传统分子对接方法快1000万倍。在对包含约264万个分子的LIT-PCBA数据集进行筛选时,传统分子对接软件Glide-SP需耗时约3天,而DrugCLIP在顺序计算模式下仅需38秒;在使用GPU并行计算时,完成相同计算量所需时间更仅为0.023秒。
图|在LIT-PCBA数据集上的筛选速度对比。
在湿实验中,DrugCLIP针对去甲肾上腺素转运体取得了15% 的命中率,并成功解析了两种筛选得到的抑制剂与靶蛋白的复合物结构。对于甲状腺激素受体相互作用因子12这一缺乏全配体结构和小分子结合物的靶点,DrugCLIP仅依赖AlphaFold2预测结构便实现了17.5% 的命中率,证明了其对难成药靶点的强大挖掘能力。
图|湿实验的实验结果。
随着AlphaFold3、RoseTTAFold All-Atom等新一代结构预测模型,以及结构–亲和力联合预测方法的不断成熟,虚拟筛选正从“快速搜索”迈向“精准决策”。
研究团队表示,在未来的研究中,将DrugCLIP等超高速虚拟筛选框架与新一代结构建模及亲和力预测技术相融合,有望在整个人类基因组范围内实现更深入、更系统的药物发现研究,有助于构建更精确的“可成药基因组”图谱,为提高药物研发的效率奠定坚实基础。
本文由主机测评网于2026-03-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260331758.html