有一个英文单词,由189,819个字母构成,以常规语速朗读需耗时三个半小时——它是人体内肌联蛋白(titin)的化学全名。
肌联蛋白是人体内已知最大的蛋白质,由超过3.4万个氨基酸组成。相比于仅含数百上千个氨基酸的常见蛋白质,肌联蛋白的规模堪称巨无霸。于是,科学家借古希腊神话中巨人神族之名“泰坦”(Titan),将其命名为titin。
然而,自1954年科学家首次发现肌联蛋白以来,已过去70余年,我们仍未窥见这位“巨人”的真实面貌。运用传统实验方法解析这个庞然大物的完整结构,几乎是一项不可能完成的任务。
过去,想要获得某个蛋白质的全貌(三维结构),科学家只能依赖核磁共振、X射线晶体学或冷冻电镜等传统手段。即便是一个仅含几百个氨基酸的蛋白质,也需要反复进行表达纯化、条件测试,实验室设备动辄上百万美元,时间成本少则数月,多则数年,更遑论肌联蛋白这种拥有三百多个结构域的超级蛋白质。时至今日,科学家才解析出肌联蛋白极少部分的结构,距离拼出完整图像仍相当遥远。
直到五年前,一款专门用于预测蛋白质结构的AI工具横空出世——在我们还仅仅用AI洗稿、编论文、画色图的时候,它已经悄然改变科学界。
蛋白质结构几乎决定了蛋白质的一切性质:蛋白质与谁互动,是否会引发疾病,以及哪里可以作为药物作用的靶点。对科学家而言,蛋白质结构就像一张地图,没有这张地图,科学家便只能摸黑走路,靠不断试错来寻找通往目的地的路径。
可现实是,在浩瀚的蛋白质世界里,人类真正通过实验看清、画出地图的区域,只有极小的一部分。几十年来,全世界科学家解析出的蛋白质结构还不到20万个。而在所有人体蛋白质中,也只有约35%的结构被实验解析,且很多都残缺不全。
蛋白质的结构由其氨基酸序列决定,我们能否直接通过氨基酸序列,预测出蛋白质的三维结构?这曾是生物学领域最艰难、最核心的挑战之一。
但是,2020年11月30日,AlphaFold2出现了。
DeepMind将蛋白质数据库(PDB)中实验得到的蛋白质结构“喂”给神经网络,让AI学习序列与结构之间的关系。最终,他们做到了科学家过去无法想象的事:在那年的“全球蛋白质结构预测比赛”(CASP)中,AlphaFold2凭借氨基酸序列预测蛋白质结构的准确率超过了90%,直逼实验方法。
现在,AlphaFold数据库中的蛋白质预测结构已超过2亿个,其中也包括人类蛋白质组98.5%的结构。来自190多个国家的上百万科研人员正利用这一开源“蛋白质GPS”,以前所未有的高效破解蛋白质本身的奥妙——随之而来的真实改变,其实已经陆续在我们日常生活中发生。
早在AlphaFold2正式发布之前,它就在人类的危难关头展示了威力。
2020年3月,新冠疫情刚爆发不久,DeepMind就利用仍在开发中的AlphaFold2,预测出了新冠病毒部分蛋白质的结构。在那样的关键时刻,等待数月甚至数年时间解析结构并不现实。尽管AlphaFold2给出的预测并非最终答案,但它让研究者能迅速了解一种新型病毒的生理机制,甚至筛选出可能的治疗药物。
它还正在辅助科学家研发疫苗,阻止下一次疫情发生。例如,英国牛津大学的研究团队用AlphaFold2找到了一种疟原虫蛋白质的关键结合位点。如果将这些位点制成疫苗,让人体产生相应的抗体,那么蚊子叮咬接种过疫苗的人后,这些抗体进入蚊子体内,就会阻止疟原虫在蚊子肠道内发育,从源头切断疟疾传播。
正因为蛋白质结构无比重要,因此当基因的错义突变改变蛋白质氨基酸序列后,就可能影响蛋白质结构,进而可能引发疾病。如今,马耳他大学的科学家正在使用AlphaFold来研究基因突变对骨质疏松的影响。他们会生成正常蛋白质和突变蛋白质的结构模型,对比观察这些突变是否可能破坏蛋白质的功能。
然而,这只是沧海一粟。在人类基因组中,存在多达7100万种可能的错义突变,而其中99.9%的变体都属于意义不明,我们不知道它们是否会导致疾病。
于是2023年,DeepMind又在AlphaFold的基础上推出了新模型AlphaMissense。它并不直接预测结构,而是利用AlphaFold对结构的“直觉”,来判断某个错义突变是否可能致病。通过这种方法,研究团队成功归类了人类所有错义突变中的89%,生成了一份“人类错义突变目录”。有了这份目录,科学家就能更有针对性地锁定罕见遗传病甚至糖尿病等复杂疾病背后的遗传因素。
AlphaFold2的作用远不止预测结构,它还能帮助科学家重新设计蛋白质,去完成过去很难做到的事,例如高效地降解一次性塑料。
在英国朴次茅斯大学,科学家正在从微生物中寻找具有降解潜力的酶。有了AlphaFold,他们短短几天内就能得到上百种候选酶的三维结构。于是他们就能基于这些结构,设计反应更快、稳定性更高、成本更低的酶,从而更有效地分解塑料垃圾。
你在用AI画色图,而人家在用AI制药。
例如,生物技术公司Insilico Medicine就将AlphaFold2整合进了他们的端到端AI药物发现平台Pharma.AI。他们用生物计算引擎PandaOmics寻找疾病的关键蛋白质靶点,再用AlphaFold预测其结构,最后让AI药物设计引擎Chemistry42基于该结构来设计药物。
使用这种AI全流程的方法,他们短短几年内就找到了一种有望治疗特发性肺纤维化的候选药物——Rentosertib。Rentosertib不仅是全球首个完全由AI发现生物靶点并设计苗头化合物的试验药物,而且目前已经进入II期临床试验阶段,真正走上了药物开发的主舞台。
回到这个故事的起点,肌联蛋白。
尽管就连AlphaFold2也无法一次性给出肌联蛋白的完整结构,但它将肌联蛋白的序列切分成了166个“重叠群”(contig),每个都长达上千个氨基酸,并分别给出了相应的结构预测。
如今,科学家已经将这些结构整合起来,得到了肌联蛋白中所有相互串联的双结构域的三维蓝图。与此同时,他们还借助AlphaMissense和其他工具,评估了这一人体最大蛋白质不同突变的潜在致病性,让一个此前几乎无法触及的研究对象突然变得有迹可循。
在AlphaFold2诞生后的这五年里,生命科学本身并未停下脚步。2024年,科学家又发现了一种比肌联蛋白还要大25%的蛋白质——PKZILLA-1,刷新了自然界已知最大蛋白质的纪录。
同年,谷歌也发布了AlphaFold3和AlphaProteo,前者能精准预测蛋白质与DNA、RNA等其他生命分子的相互作用,后者则能主动设计出能与疾病靶点结合的定制蛋白质。2025年,谷歌又推出了AlphaGenome,进一步把预测能力延伸到了DNA层面,从DNA序列预测基因突变对生物学过程的影响。
在蛋白质结构预测领域,AlphaFold也并非独行者。RoseTTAFold、ESMFold和I‑TASSER等AI模型,也正在各自的道路上不断突破,尝试从不同角度解决困扰了生物学界几十年的蛋白质折叠问题。
在你偶尔会抱怨甚至厌烦满眼AI,甚至怀疑其泡沫属性的时候,想想这些在最重要的科研领域真实发生的改变,就会更乐于迎接这个新时代的到来。
本文由主机测评网于2026-02-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260226830.html