中国清华AIR和美国英伟达的“生物学DeepSeek时刻”撞车了|钛媒体AGI

钛媒体APP 2025-02-21 10:08:22

中国、美国研究人员发布的两款AI生物学模型同日“撞车”。

钛媒体AGI获悉,2月20日,美国AI巨头英伟达(NVIDIA)宣布,其与美国弧形研究所、斯坦福大学、加州大学伯克利分校、加州大学旧金山分校等科研人员联合推出开源生物学AI大模型Evo2,完整版拥有高达400亿参数,包含12.8万个物种的9.3万亿个核苷酸,可广泛应用于分子研究、精准医学、药物研发,合成生物等。

这是迄今最大规模的开源AI生物学模型之一。目前,该模型已开放给全球科研人员,他们可通过网页使用该模型,还可免费下载该模型的源代码、训练数据及参数。

同一天,清华大学人工智能产业研究院(AIR)与北京水木分子联合发布升级版生物医药多模态开源基础大模型BioMedGPT-R1,用DeepSeekR1蒸馏版本模型更新百亿参数规模的开源BioMedGPT中的文本基座模型,在USMLE美国医师资格考试上达到了67.1%正确率,效果逼近人类专家水平。据悉,清华AIR是由清华大学智能科学讲席教授、中国工程院外籍院士张亚勤创立。

随着DeepSeek热潮,加速AIforScience(AI4S)科学研究进程。

英伟达CEO黄仁勋(JensenHuang)曾在2024GTC大会坚定表示,AI生物学研究是AI领域的三个关键方向之一。

“在人类历史上,生物学第一次有机会成为工程,而不是科学。”(Fortheveryfirsttimeinhumanhistory,biologyhastheopportunitytobeengineering,notscience.)

中国工程院院士、之江实验室主任王坚2月19日表示,尽管AI远未到真正解决科学问题的时刻,但AI可以打通各个学科的壁垒,具有颠覆基础科研的潜力。“AI不是一次工具的革命,而是一次科学革命的工具。”

一个关于AI生物科学时代的竞赛已经开始。

400亿参数,引爆学术界“能思考”的AI生物学模型

尽管AI是计算机科学的一个子领域,但也与数据科学、机器学习以及统计学等研究领域密切相关,不仅加速接管数字世界,改变物理世界,而且深刻影响新一轮技术创新能力和竞争格局。

随着2024年10月,三位计算机科学家获诺贝尔奖,让AI4S(科学智能)逐步成为一种基本科研方法,利用AI技术打通各个学科的壁垒,解决复杂科研问题,让AI在芯片设计、生物医药、材料能源、天文气象、自动驾驶等一系列科研领域发挥重要作用。

AI技术在生物学领域一个比较直观的例子是AlphaFold。

2018年,谷歌DeepMind研发的AlphaFold1模型利用深度学习技术结合进化信息和物理约束,采用多序列比对和神经网络来预测氨基酸间的距离和角度,构建蛋白质三维结构,成功预测出最困难目标的蛋白质结构;2020年发布的AlphaFold2模型,更进一步已预测出35万种蛋白质结构,涵盖98.5%的人类蛋白质组以及大肠杆菌、酵母菌和果蝇等20种生物的蛋白质,其中复现了44%的人类蛋白质结构,被美国《科学》杂志评为2020年十大科学突破之一。

2024年,谷歌DeepMind联合推出的AlphaFold3,能够准确预测蛋白质、DNA、RNA、配体等生命分子的结构及相互作用,相比之前版本准确率提高一倍,成为全球首个超越基于物理的生物分子结构预测AI模型。

如今,美国研究人员更进一步。最新发布的AI生物学模型Evo2,在前代模型基础上实现基于超过12.8万个基因组数据的9.3万亿个核苷酸进行训练,这些模型使AI能够“用核苷酸语言来读、写和思考”。

与AlphaFold等蛋白质预测模型不同,Evo2的训练数据既包含指导蛋白质合成的“编码序列”,也包含可调控基因活动时空特征的非编码DNA。同时,AlphaFold一次处理一个蛋白质,而Evo2可以管理多基因结构、调控区域,并同时设计蛋白质及其相应的RNA。

然而,在实践中,两者是互补的:Evo2可以生成潜在的新型蛋白质或CRISPR基因编辑系统,然后AlphaFold(或类似的结构预测模型)可以评估它们可能的3D构象。所以,Evo2可以将基因组数据与表观基因组学、蛋白质组学和结构预测工具相结合。

美国弧形研究所的生物工程师PatrickHsu团队使用Evo2预测乳腺癌相关基因BRCA1中已知突变的影响。在相关测试中,Evo2在预测突变是良性突变、以及哪些是潜在致病突变等方面均达到90%以上的准确率。他表示,在判断编码区变异是否致病方面,其表现接近最佳生物AI模型,已达到顶尖水平。

这将有助于识别患者基因组中难以解读的变异,以及节省大量用于细胞或动物实验的时间和研究资金,通过找到人类疾病的遗传原因来加速新药研发。

但考虑到潜在的伦理和安全风险,研究人员在Evo2的基础数据集中排除了感染人类和其他复杂生物的病原体,并确保该模型不会对这些病原体的相关查询返回有效答案。

此外,根据论文,Evo2还可用于设计新的生物工具或治疗方法,以及实现多种任务,它能够识别影响蛋白质功能和生物体适应性的基因变化。目前,研究人员在探索一种概念验证的完全由AI设计的生物体,在实验室中合成Evo2基因组。

美国生物模型开发公司TattaBio的计算生物学家YunhaWang认为,Evo2或擅长将细菌和古菌基因组的规律应用于人类新蛋白质设计。

“蛋白质语言模型等AI工具已经引发一场生物设计革命。”斯坦福大学的计算生物学家BrianHie表示。

显然,这也意味着,人类能够已经具备重写生命最底层代码——基因组的能力,这将打开新生物技术时代的大门。

医师资格考试67.1%准确率,清华AIR加速AI生物模型研发

继月之暗面kimi杨植麟,以及DeepSeek创始人梁文锋担任作者的两篇关于AI论文“撞车”后,如今,英伟达和中国清华大学AIR的新研究成果也同日“撞车”了。

今年2月20日,升级版生物医药多模态开源基础大模型BioMedGPT-R1正式推出。全新BioMedGPT-R1拥有170亿参数规模,基于DeepSeekR1蒸馏版本模型进行更新和进一步优化,实现生物模态与自然语言文本模态在同一个特征空间的统一融合,从而探索生物多模态场景下模型深度推理能力。

事实上,早在2023年,清华AIR就和水木分子共同发布了开源可商用、生物医药领域的多模态百亿参数模型BioMedGPT,该模型在生物医药专业领域问答能力比肩人类专家水平,在自然语言、分子、蛋白质跨模态问答任务上达到SOTA,能够同时处理多种生物医学任务。

而如今发布的BioMedGPT-R1,是由清华大学AIR和北京水木分子生物科技有限公司(水木分子)联合研发。其中,清华大学智能产业研究院于2020年创立的AI产业型机构;而水木分子是源自清华大学AIR团队,成立于2023年6月,目前,清华大学国强教授、AIR首席研究员聂再清教授担任水木分子首席科学家。

早前,水木分子发布了自研千亿参数多模态生物医药专业大模型ChatDD-FM和新一代AI驱动药物发现工具ChatDD。而目前,水木分子已与复星医药等超过十家头部生物医药企业和机构建立了深度合作。

据介绍,BioMedGPT-R1的训练分为两个主要步骤:首先,仅训练对齐翻译层Translator,使其能将编码后的生物模态表征映射到语义表征空间;其次,同时微调对齐翻译层Translator和基座大语言模型,激发其在下游任务上的多模态深度推理能力;最后,训练推理之后,BioMedGPT-R1可应用到药物分子深度理解分析、药物靶点探索与挖掘等领域。

在推理阶段的测试显示,BioMedGPT-R1在生物医药相关文本问答任务上也展现出了较优效果。其中在USMLE美国医师资格考试上,BioMedGPT-R1达到了67.1%正确率,效果逼近闭源商用大模型和人类专家水平,并在专家级医疗推理与理解评测集MedXpertQA上达到闭源商用大模型相当的效果。

水木分子团队对钛媒体AGI透露,下一步,团队正在探索生物医药场景下的多个深度推理能力应用,让“强推理慢思考”赋能医药研发。同时,后续团队也将依托OpenBioMed平台开源BioMedGPT-R1模型和生物医药研发Agent系统框架。

随着1月初DeepSeek爆火,全球AI技术迎来了新的竞争狂潮,包括OpenAIGPT、xAIGrok等模型都在不断更迭,预计今年3月初,阿里通义Qwen推理模型,以及GPT-4.5基座模型都将发布。而对于生物领域来说,AI加速生物科学研发已经成为现实。

据2024年人工智能指数报告显示,自2012年以来,美国食品药品监督管理局(FDA)批准的AI相关医疗设备数量增加了45倍(4500%)以上。2022年,FDA批准了139种人工智能相关医疗设备,预估2023年批准AI医疗设备数量将同比增长30%以上,而绝大多数获批设备与放射学有关。

阿里巴巴集团副总裁、大数据和智能实验室负责人叶杰平则表示,相比20年前、10年前、甚至5年前,现在AI大模型在整个科研流程方面都可以发挥非常大的价值。

“其实这个时代在发生变化。我相信,最后是每个人的创造,决定了他能不能出最好的科研成果,而不是简单的拥有一些别人拥有不到的科研资源,而能够出更好的成绩。如果我们能够把这样(AIForScience)技术用好,让人类可以把真正的科技创新资源开放,这也是其意义和价值所在。”王坚称。

清华大学教授、人工智能研究院常务副院长孙茂松表示,现在所有的科研领域都应该用AI过一遍。AI可以发现某个领域内最重要、根源性的问题,如果这些领域有高质量的数据,则AI大概率能给出答案。

0 阅读:0