记者/李晶晶
编辑/计巍
9月12日,百度在北京发布其十大科技前沿发明
除了与ChatGPT对话,AI已经从我们日常的生活中延伸到更远——AI生物计算,它可以识别“蛋白大分子”“小分子化合物”,为创新药的研发装上引擎,让科研人员的双手从重复的劳动中解放出来。百度AI生物计算团队三年前开始从计算机领域跨界到生物医药,助力国产创新药物的研发。
你可以想象一个场景,在药物分子的海洋中,海量的、令人眼花缭乱的分子化合物从你眼前倏忽而过,似乎都长得一模一样,而你需要一一去辨别、去“贴上”它们,看看能不能和你起反应,这是传统的生物实验。
而AI算法就像“千里眼”,可以迅速对药物分子的物理、化学、药学性质的表征进行筛选归类、推断其空间结构;自动化则是“无影手”,在算法指导下进行标准化、无间断的实验操作与数据采集,为AI模型的优化提供数据反馈。
生物计算,这是一个“坑”“我这里有个大坑,你要不要接一下。”三年前,刚得知要挑起百度AI生物计算研究的重任时,张肖男和团队就被领导说的话来了个下马威。当时她还在做关于机器语言学习方面的工作,虽然也不能停止学习,但还算熟门熟路得心应手,在得知要步入一个全新的领域从零开始时,她几乎是“硬着头皮上的”。
在生物领域,她和团队技术负责人都算得上是“小白”,经常被提及的“小分子化合物”,也是看了书才了解它真正的定义。在百度工作十多年,这一次,她和团队又要重新做回学生了。《药物发现与设计》《新药药理学研究方法》等书是那时生物计算团队桌子上摆的最多的书。
2020年正值新冠疫情爆发的年份,对于药物研制有着迫切的需求,AI在生命科学领域的应用也有了一些新进展,如谷歌AlphaFold2的出现,这也加速了人工智能技术在生命科学领域的落地。但在中国,关于此方面的探究还处于早期阶段。
“在中国,药物研发是一个容易被欧美卡脖子的领域。”张肖男不无感慨地说,那时,她和团队频繁往返于全国各地的药企做调研,了解国内药企的痛点和实际需求。
仿制是制药产业中被允许的普遍做法,当创新药(即原研药)20年专利有效期到期后,其他药企即可使用药物的化学合成物专利,自行开发配方工艺并合法生产仿制药。国内医药市场八成以上为仿制药,而仿制药资金投入的一大部分都不在研发而在营销——怎么和其他仿制药企进行价格厮杀、维护和医院的关系以博得进入药品展台的机会。
创新药历来有“十年时间加十亿美金”的说法,新药研发周期漫长、成本高的特点让很多药企望而却步。但创新药也有更广袤的市场。创新药投入高、研发周期长、失败率高,但是产品一旦研发成功确实能够解决临床问题,带来的回报也非常可观。
总要有人来做创新的事,这不仅需要药企的努力,也需要科技的助力。周期漫长,那就想办法缩短研制的周期,减少实验人员的重复性工作;成本高昂,那就尽力在计算机模拟的阶段找到更合适的分子,让药企在分子采买阶段就能省下钱来,而AI就可以完成这件事。
据张肖男了解,生物计算方面国内外还有一定差距,这种差距更多体现在数据、人才、商业环境上。目前该领域大部分的公开数据集都来自国外的科研机构,国内数据几乎没有。交叉人才的储备上,懂AI也懂生物、药学的国内更是稀缺。受限于仿制药工业等历史原因,国内药企对创新药的研发投入本就不高,愿意花在计算上的钱相比国外药企就更低了。
张肖男在会议上交流
从“搜索”到“做药”以小分子为例,要找到一个候选药物,理论上可检索的化学空间达到10的60次方,传统计算方法很难高效完成,且过程会略显笨拙。实验人员要在一块块高通量的板子上面不断地重复做实验,可能要做很多块板子才能找到一个两个可以用的分子。
但通过计算方法,可以快速定位到最有可能的候选分子,大大降低实验的数量。但在刚开始什么都没有时,百度生物计算团队去拜访客户时,很多时候是被药企的资深专家们先进行一番“灵魂拷问”:“百度不是做搜索的吗?现在也开始做药了?”“你们只懂AI是没用的,领域的know how更重要。”
但随着研发成果和成功案例的出现,百度在生物计算上的技术实力和所提供的产品方案,逐渐得到了行业专家们的认可。质疑的声音逐渐弱了,取而代之的是,更多合作的促成。
百度自主研发的文心生物计算大模型,其多个成果发表在国际顶级期刊和会议上。例如,在化合物属性预测上,2022年在国际顶级期刊Nature子刊Nature Machine Intelligence上发表的HelixGEM,揭示了一种基于化合物三维几何空间建模的新方法,能够更准确的预测化合物的属性,提升虚拟筛选的精准度。在RNA领域,百度自主研发的mRNA序列设计算法LinearDesign,发表于Nature杂志,旨在帮助设计出稳定性更好、蛋白表达更优的mRNA序列。而这仅仅是百度生物计算能力的冰山一角。
生物计算不仅要获得科研层面的认可,更重要的是获得行业客户的认可,将领先的技术转化为可落地的产品服务,赋能产业,而这也是百度生物计算团队的长期愿景。目前,基于文心生物计算大模型和飞桨深度学习框架搭建的面向小分子、大分子和RNA的药物设计平台——飞桨螺旋桨PaddleHelix,已经帮助超过三十家合作伙伴,利用百度的生物计算大模型能力,找到并设计出活性更好、性质更优的候选药物分子,从而大幅提升合作伙伴在新药研发和疫苗设计上的效率,其中不乏很多国内外的头部药企。
从开始的不被认可,到现在的引领行业,百度在试图走出一条自己的路。
AI生物计算为创新药的研发装上引擎
变化与革新正在发生全球老龄化加上气候变化,人类需要应对的医学难题接踵而至,想要赶上变化的速度,就需要科技的助力。或许药物的研发是一个愚公移山的过程,但可以想见的是,AI的助力是将这把铲子变成了挖掘机。
9月12日,百度在北京发布了其十大科技前沿发明,生物计算团队的发明“数据和原理双驱动的生物计算大模型”也在其中。
百度专利事务部的崔玲玲介绍,入选的十大发明体现了百度多项国际前沿核心技术的实现与突破,涉及大模型、基于大模型的端到端搜索、飞桨、AI芯片、生成式检索、内容生成推荐技术、自动驾驶决策系统、生物计算大模型、高性能量子芯片。
百度首席技术官王海峰表示,十大科技前沿发明是百度前沿创新成果的集中展现,有超过70%的发明都涉及到大模型和重构创新,我们用AI原生思维,踊跃创新AI原生应用。
全球知识产权综合信息服务提供商IPRdaily中文网今年4月份发布的《中国人工智能大模型企业发明专利排行榜》显示,百度以602件大模型专利申请量排名第一,百度大模型专利的授权量也是第一名。
百度集团资深副总裁、总法律顾问梁志祥表示,技术竞争的背后是知识产权的竞争。强大公司背后凝聚着一个强大技术团队,强大技术团队背后凝聚着很多强大的专利。百度拥有充满技术基因的强大技术团队和知识产权团队,大模型技术和专利布局业界领先,为百度产品的领先提供了重要支撑。“这个世界在改变,这个世界在不断革新,现在就是各类技术人员的时刻。”梁志祥感慨道。
【版权声明】本作品的著作权等知识产权归北京青年报【北青深一度】所有,未经授权,不得转载。