为什么AlphaFold3在制药界如此轰动?|行业观察

研发可 2024-06-18 18:57:45

//

• AlphaFold3使药物开发人员能够快速识别有潜力的靶点,从而可能将药物研发上市的时间缩短好几年。

• 除了预测蛋白质的结构外,AlphaFold3还可以预测其他分子的结构,包括DNA 、RNA和配体等,以及它们如何相互作用。

“对于蛋白质与其他分子类型之间的相互作用,我们发现至少有50%的改进,对于一些重要的相互作用类别,我们的预测精度提高了一倍”,谈及AlphaFold3(以下简称“AF3”),谷歌这样表示。5月初,谷歌旗下的AI公司Google DeepMind 和药物发现AI公司 Isomorphic Labs 联合推出了AF3,并同时在Nature 上发布论文,介绍了这个革命性的模型。AF3能使药物开发人员快速识别有潜力的靶点,从而可能将药物研发上市的时间缩短好几年。相比之前的版本AlphaFold1(以下简称“AF1”)和AlphaFold2(以下简称“AF2”),AF3除了预测蛋白质的结构外,还可以预测其他分子的结构,包括DNA 、RNA和配体等,以及它们如何相互作用。谷歌在其网站上展示了AF3预测的多个不同分子结构示例,有普通感冒病毒刺突蛋白、DNA 结合蛋白、RNA 修饰蛋白和酶。谷歌在其网站上称,AF2在蛋白质结构预测方面已经取得了根本性的突破,而AF3 “带领我们超越蛋白质,探索更广泛的生物分子。 这一飞跃可能会开启更多变革性的科学,从开发生物可再生材料和适应性更强的作物,到加速药物设计和基因组学研究。”普美瑞生物首席科学家常珊告诉研发客,AF3很好地解决了单一深度学习模型准确预测所有生物分子以及复合物结构的问题,“扩展了应用场景,特别是在各分子相互作用方面的应用”。普美瑞生物是一家专注于AI蛋白质预测的公司。关于AF3能实现“超越蛋白质”这一重大突破,常珊认为,“很重要的原因是Isomorphic Labs加入研发,使得药物设计成为AF3最容易落地应用的场景”。Isomorphic Labs此前从DeepMind分拆出来,专门从事AI药物研发。常珊团队开发的药物发现算法CoDock,曾在第14届蛋白质结构预测比赛(CASP,Critical Assessment of Structure Prediction)中,获得CAPRI蛋白质复合物结构预测赛道获得打分组第一,以及第15届CASP的蛋白质/RNA-配体复合物结构预测赛道获得第一。而AF1和AF2一举成名的契机,也正是CASP这项比赛。

蛋白质结构预测难题

要明白AlphaFold系列为什么名声大噪,需要先知道:蛋白质结构预测是一道难题。蛋白质由氨基酸链组成,氨基酸链通过蛋白质折叠,形成三维结构。这个三维结构对于蛋白质的生物学功能至关重要。对于药物开发而言,蛋白质是重要靶点,通过开发出能够正确识别“问题蛋白质”并与其结合的药物,可以治疗多种疾病。为了设计出与靶蛋白结合的药物,上世纪80年代,科学家提出了蛋白质从头设计(De Novo design)的概念,通过蛋白质结构预测,设计出全新的蛋白。预测蛋白质结构可以通过X射线晶体衍射、冷冻电镜和核磁共振等实验方法,但过程耗时耗力,往往需要耗费数十万美元和好几年的时间才能成功筛选出一个先导化合物。为此,科学家开始尝试使用计算方法来进行蛋白质预测。但多年来,相对实验方法,除了小型的简单蛋白质,计算方法的预测准确性不佳。为了推进计算方法在蛋白质结构预测上的研究,自1994年开始,蛋白质结构预测比赛CASP(Critical Assessment of Structure Prediction)每两年进行一次。该比赛旨在提供一个结构预测的客观测试,每年有来自全球100多个研究小组参加这项比赛。在1996年,最困难蛋白质预测的GDT分数(全局距离测试,>90分可视为预测结果大致正确)只能拿到满分100分中的40分。但这个分数在2018年12月的第13届CASP比赛(CASP13)被刷新。当年,Google DeepMind发布的AF1在总体排名(三维结构预测)以58.9分的中位GDT分数名列第一,由此受到全球关注。在比赛组织者认为最困难的结构(无现有的部分同序列蛋白质模板可用)组,AF1的预测准确性尤为突出。之后,DeepMind对AF1进行了重要改进,开发出AF2。2020年的CASP14中,AF2再次获得了总体排名组的第一名,GDT中位分数达到了92.4分,准确率远高于该赛道的其他团队,可与X射线晶体学等实验技术相媲美。即使是最困难的结构组,GDT中位分数也达到了87。这意味着蛋白质折叠这个困扰科学家 50 多年的难题得到了解决。AF2的成功受到了媒体的广泛关注,Nature、Science、MIT Technology Review和New Scientist争相报道了这一“蛋白质折叠问题上的惊人进展” 。

与之前CASP比赛结果相比,AF1(小圈圈)和AF2(大圈圈)的蛋白质预测GDT分数

来源|CASP

在AF2推出一年后,DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作,于2021年7月上线了AlphaFold蛋白质结构数据库(AlphaFold DB)。科学家开始使用AF2来加速药物发现。 “截止目前,全球已经有数百万研究人员使用了AF2,用于发现疟疾疫苗、癌症药物和设计酶。AlphaFold被引用超过两万次,其科学影响力通过许多奖项得到了认可,包括最近的生命科学突破奖(Breakthrough Prize in Life Sciences)。”谷歌在公告中这样称。

还有局限性

目前,Isomorphic Labs 正在将 AF3 与一套与之互补的内部 AI 模型相结合,用于内部项目的开发以及为制药业的合作伙伴提供药物设计。该公司正在使用 AF3 来加速和提高药物设计的成功率——帮助了解新的疾病靶点,以及开发针对以前无法成药靶点的新的治疗方法。云服务公司Searce的数据、分析和AI高级副总裁Patrick Bangert评论道,AF3具有“突破性”,在药物发现上具有变革性的潜力,“这是一项值得诺贝尔奖的发明”。不过, AF3还是存在一些问题和局限性。“任何单一的方法都难以在所有情况下都表现最佳,”常珊介绍说,“比如在RNA结构预测上,AF3的性能还不够好。此外,即使输入了正确的手性参考结构,AF3有时仍会输出违反手性的模型。还有就是AF3模型预测的只是单一静态结构,无法捕捉生物分子系统在溶液中的动态行为,而动态构像对于全面了解生物大分子功能非常重要的动态构象,这对于全面了解生物大分子功能非常重要。”常珊还提到DeepMind为了配合AF3发布而推出的线上平台AlphaFold Server。“与AlphaFold DB相比,AlphaFold Server仅供个人和非商业组织(大学、非营利组织和研究机构、教育和政府机构)或新闻业的非商业用途使用,且服务器预测出的结构或其它文件都不允许做任何商用。”“AlphaFold Server的在线预测服务也被严格限制。比如,尽管此前测评报告显示,AF3可以预测多达400多种配体,但在线预测可供选择的配体只有常见的19种,且不能提交自定义配体,暂时不能满足药物研发中的多样化配体需求。此外,目前每个账户每天仅允许免费预测20个任务,并且在线预测的复合体结构最大只允许5000 token。”常珊推测,之所以不开放所有服务,可能是因为“这对于Isomorphic Labs目前药物设计的商业模式非常重要”。

编辑 | 姚嘉yao.jia@PharmaDJ.com

总第2138期
0 阅读:3

研发可

简介:感谢大家的关注