·“假如你想预测某个化合物是否会通过临床试验,那么需要化合物、数十万次试验,并确切地知道每个试验中发生的情况,这样可以训练一个非常有效的模型。我们显然没有这些数据。”
蛋白质由20种简单的氨基酸经过排列组合拼接而成,一条氨基酸序列包含它能形成蛋白质的所有结构和活性信息。一条氨基酸序列可以自发折叠成唯一的三维结构,然后在细胞内发挥特定的功能——有的可以结合DNA,控制基因的开关;有的可以识别病原体,启动免疫反应。
1993年,2024年诺贝尔化学奖得主之一美国华盛顿大学的大卫·贝克(DavidBaker)开始开发名为Rosetta的软件,以解开蛋白质折叠之谜。同时,贝克也开始挑战“从头设计蛋白质”。相比预测蛋白质的结构,从头设计一个蛋白质要求科学家们能根据一个具有特定形状的蛋白,倒推出其DNA序列。2003年,大卫团队设计出了第一个原本并不存在于自然界中的蛋白质,命名为Top7。虽然这个蛋白质折叠成了他们理想的模样,但不具有任何功能。
贝克现在是华盛顿大学蛋白质设计研究所(InstituteforProteinDesign)的主任,他与他人共同创立了21家公司,其中最著名的是XairaTherapeutics——获得了超过10亿美元的支持,将他实验室的研究转化为药物。
当地时间2024年10月18日,贝克在接受生物医药行业媒体Endpoints采访时谈到从头设计蛋白质的重要性:“蛋白质可以执行一系列惊人的功能,经过数百万年或数十亿年的进化来解决问题。今天出现了新的问题。在医学领域,我们的寿命更长,因此出现了新的疾病。新的大流行病毒随时有可能出现。医学之外,人类正在使地球变暖并产生污染。蛋白质设计的承诺是能够设计出解决当前问题的新蛋白质,以及自然界中的蛋白质自然选择过程中的相关问题。”
据《科学》(Science)杂志10月16日报道,AI设计的蛋白质可以改变医学和技术——新工具已经使研究人员能够生产出用于疫苗和癌症治疗的设计蛋白、人工污染消除酶和能够促进矿物质生长的分子组件。例如2020年,新冠肺炎暴发后不久,华盛顿大学的研究人员设计了附着在SARS-CoV-2刺突蛋白特定部分的蛋白质,并阻止病毒穿透人体细胞。识别刺突蛋白的这一部分使他们能够设计一种疫苗,该疫苗将关键蛋白质部分的数十个拷贝排列在蛋白质核心周围,以训练免疫系统识别和灭活SARS-CoV-2上的相同结构。在成功进行人体试验后,这种名为SKYCovione的疫苗去年被批准在韩国和英国使用,尽管由于疫情的减少,其生产已被搁置。华盛顿大学的研究人员正在研究其他疫苗,包括一种广谱流感疫苗,可能消除对年度加强针的需求,以及一种针对呼吸道合胞病毒的疫苗,呼吸道合胞菌病毒是婴儿和老年人的主要杀手。
当被问及对AI优化化合物的方法持乐观态度还是怀疑态度时,贝克说,“假如你想预测某个化合物是否会通过临床试验,那么需要化合物、数十万次试验,并确切地知道每个试验中发生的情况,这样可以训练一个非常有效的模型。我们显然没有这些数据。”他认为有两条发展的道路:“第一种是识别可能获得长期成功的代替物,然后优化它们,作为结构代替物,比如以一定量的表面疏水性为目标。第二种是生成相关的数据集。地球上没有任何实体可以进行十万次临床试验并收集数据。大型制药公司有很多关于不同化合物在药物开发流程中失败的内部数据。有趣的是,一些公司正在利用这些数据进行训练,这是否成功将取决于数据集的广泛程度。”
参考资料:
1.https://endpts.com/nobel-winner-david-baker-on-ai-in-biology-and-protein-design/