
德克萨斯大学奥斯汀分校的研究人员开发了一种名为EvoRank的新型人工智能模型,为更有效、毒性更低的治疗方法和新的医学预防策略铺平了道路。该AI模型通过借鉴自然进化过程中的底层逻辑,指导蛋白质疗法和疫苗的设计。
EvoRank展示了AI在生物医学研究和生物技术领域带来颠覆性变革的最新实例。科学家们在国际机器学习会议上展示了这一成果,并在《自然通讯》上发表了一篇相关论文,介绍了如何利用更广泛的AI框架来识别蛋白质中的有用突变。
设计更好的蛋白质生物技术的一个主要障碍是缺乏足够的实验数据,无法有效训练AI模型来理解特定蛋白质的工作机制,从而为特定目的设计它们。EvoRank的关键在于利用进化过程中生成的数百万种蛋白质的自然变异,提取其背后的动力学原理,解决生物技术挑战。
“自然已经进化了30亿年,不断突变或替换氨基酸,并保留那些有利于生物生存的变异,”德克萨斯大学奥斯汀分校计算机科学研究员、Deep Proteins小组的联合负责人丹尼尔·迪亚兹说。“EvoRank学习如何对我们观察到的进化进行排序,提炼出决定蛋白质进化的原则,并利用这些原则来指导新型蛋白质应用的开发,包括药物开发、疫苗研发以及广泛的生物制造应用。”
德克萨斯大学奥斯汀分校是美国AI研究的领先机构之一,并设有由计算机科学教授亚当·克利文斯领导的国家科学基金会资助的机器学习基础研究所(IFML),他也是Deep Proteins的联合负责人。今天,先进研究项目局(ARPA-H)宣布了一项涉及Deep Proteins和疫苗制造商杰森·麦克莱伦的研究资助计划,麦克莱伦是德克萨斯大学分子生物学教授,研究团队将与拉霍亚免疫学研究所合作,获得近250万美元的资助,开始将AI应用于蛋白质工程,开发对抗疱疹病毒的疫苗。
“为自然蛋白质赋予新的能力,是生命科学中一个长期的重大挑战,”克利文斯说。“这恰恰是生成式AI模型擅长的任务,因为它们能够综合已知生物化学的大型数据库,并生成新的设计。”
与谷歌DeepMind的AlphaFold不同,后者应用AI根据氨基酸序列预测蛋白质的形状和结构,Deep Proteins小组的AI系统旨在建议如何最优地修改蛋白质,以实现特定功能,如提高蛋白质开发成新生物技术的难度。
麦克莱伦的实验室已经在根据AI生成的设计合成不同版本的病毒蛋白,并测试其稳定性和其他特性。
“这些模型提出了我们从未想到的替代方案,”麦克莱伦说。“它们有效,但并非我们能够预测的,因此它们实际上为稳定化探索了一些新的空间。”
蛋白质疗法往往具有较少的副作用,且比其他替代方案更安全、更有效。今天,全球估计规模为4000亿美元的行业预计在未来十年内将增长50%以上。然而,开发一种蛋白质药物过程缓慢、成本高昂且风险大。从药物设计到完成临床试验,通常需要耗资10亿多美元,历时十多年;即便如此,一家公司新药获得美国食品和药物管理局(FDA)批准的几率也只有约1/10。此外,为了在治疗中有用,蛋白质通常需要进行基因工程修改,例如确保其稳定性或提高其在药物开发中所需的产量——而实验室中繁琐的反复试验传统上决定了这些基因工程的决策。
如果EvoRank及其构建基础——由德克萨斯大学开发的相关框架“Stability Oracle”——能够实现商业化,行业将有机会缩短药物开发时间和成本,并能够更快地找到更优设计方案。
通过利用现有的自然发生的蛋白质序列数据库,EvoRank的研究人员将不同生物体中出现的同一蛋白质的不同版本进行了比对——从海星到橡树再到人类。蛋白质中的任何位置都可能有几种不同的氨基酸,这些氨基酸在进化过程中被证明是有用的,自然选择会在36%的情况下选择酪氨酸,29%的情况下选择组氨酸,14%的情况下选择赖氨酸——更重要的是,从未选择亮氨酸。利用现有数据的这一金矿揭示了蛋白质进化中的潜在逻辑。研究人员可以排除那些进化过程中可能导致蛋白质功能丧失的选项。研究团队利用这些信息来训练新的机器学习算法。基于持续的反馈,模型学习到自然在过去进化蛋白质时选择了哪些氨基酸,并以此为基础理解哪些在自然中是可行的,哪些不是。
迪亚兹计划开发EvoRank的“多列”版本,可以同时评估多个突变对蛋白质结构和稳定性的影响。他还希望构建新的工具,预测蛋白质结构与其功能之间的关系。
除了克利文斯和迪亚兹,计算机科学研究生龚成跃和德克萨斯大学校友詹姆斯·M·洛伊共同撰写了这两项工作。陈天龙和刘强也对EvoRank做出了贡献;欧阳张、杨大卫、艾灵顿和迪玛基斯也参与了Stability Oracle的研究。该研究得到了国家科学基金会、国防威胁减少局和威尔奇基金会的资助。
时觉空罗智能
磨难是进化的催化剂[点赞][点赞]