当前位置：首页 > 科技资讯 > 正文

AI对比深度学习：DrugCLIP加速药物研发

主机测评网
科技资讯
2026-06-09
509

人类体内约有20000个与疾病相关的蛋白质编码基因，然而，目前仅有约10%被现有药物成功靶向。这一现状凸显了药物研发领域的巨大挑战。

传统实验中，科学家们依赖“分子对接”进行虚拟药物筛选，这种方法不仅耗时耗资，而且难以覆盖庞大的靶点数量。长期以来，科学家们一直在寻求一种更高效、更稳健的方法。

今日，清华大学联合研究团队带来了一项创新突破，他们提出了“AI对比深度学习”框架——DrugCLIP。

据介绍，该框架能够实现超高速且高精度的虚拟筛选，其速度最高可比传统分子对接方法快10万倍，并在多项基准测试中持续优于多种基线方法。相关研究成果已发表在权威科学期刊Science上。

AI对比深度学习：DrugCLIP加速药物研发 AI对比深度学习 DrugCLIP 药物研发虚拟筛选第1张

论文链接：https://www.science.org/doi/10.1126/science.ads9530

该论文的5位共同一作均来自清华大学，分别是：Yinjun Jia、Bowen Gao、Jiaxin Tan、Jiqing Zheng、Xin Hong。通讯作者包括：清华大学万国数据教授&智能产业研究院（AIR）副院长兰艳艳、清华大学生命科学学院助理教授张伟、清华大学生命科学学院副教授闫创业、清华大学化学系教授刘磊。

DrugCLIP：革新虚拟筛选

DrugCLIP的核心创新点在于将虚拟筛选重新定义为一种密集检索（dense retrieval）任务。

具体而言，模型将蛋白结合口袋和小分子编码为向量，并映射到同一表示空间中。通过比较两者的相似度，即可判断小分子是否可能与蛋白结合。

通过对比学习，模型拉近正样本蛋白–配体对的表示，同时拉远无关分子，从而在海量分子中迅速筛选出最有可能结合的候选者，使虚拟筛选从高成本计算转向高效检索。

AI对比深度学习：DrugCLIP加速药物研发 AI对比深度学习 DrugCLIP 药物研发虚拟筛选第2张

1. 训练流程

在预训练阶段，研究团队提出了ProFSA框架，从已有的蛋白结构中生成大规模合成数据。他们基于蛋白质数据库PDB构建了约550万对训练样本。

该框架将蛋白内部的短肽片段视为“伪配体”，其周围区域视为“伪结合口袋”。由于蛋白内部相互作用与蛋白–小分子结合在物理机制上高度相似，这种方法能够在没有真实配体的情况下，让模型提前学习结合规律。

随后，研究团队对预训练模型进行了微调，即使用真实解析的蛋白–小分子复合物进行联合优化。考虑到虚拟筛选中往往无法获得分子的真实结合构象，他们采用RDKit生成随机构象进行数据增强，使模型更贴近真实应用场景。

2. GenPack 策略

在通过计算机模拟（in silico）和湿实验（wet-lab）验证DrugCLIP模型的有效性后，研究团队进一步将其应用于计算预测得到的蛋白质结构。然而，DrugCLIP对蛋白侧链的误差并不敏感。为了进一步释放预测结构的潜力，研究团队提出了GenPack（Generation-Packing）策略。

GenPack通过在固定蛋白骨架条件下生成候选分子，反向“引导”蛋白口袋进入更有利于结合的状态，并在随后进行结构精修。

借助这一策略，DrugCLIP在AlphaFold2预测结构和apo结构上的活性分子富集能力均显著提升，整体性能优于此前常用的基于物理模型的方法。