揭秘生物的构成原理:AlphaFold人工智能系统及数据集简介

活在信息时代 2023-03-21 22:51:03

人类对于世界的认知是循序渐进的,对生命也是如此。

早期科学家们通过很多理论来研究世界的组成,像中国人认为世界由金木水火土组成,而古希腊人则认为世界是由土气水火四种元素组成的。

这些理论持续发展,直到道尔顿开始发展了近代原子理论。而门捷列夫的划时代成果,则最终将世界的本来面目展现给了世人。

于是我们有了元素周期表,我们知道这些元素通过各种奇妙的排列组成产生了各种化合物,组成了我们的世界。

我们对人类的认知也是如此,古代中医试图通过五脏六腑、阴阳五行来解释人体的健康运行和各种疾病的产生。而随着现代科学的发展,对DNA、蛋白质研究的深入,更好的揭示了生命本身的奥秘。

现代科学显示,人类的很多疾病源于蛋白质的异常,这些异常在医学上称之为靶点。所以科学家们在努力找到这些靶点,然后根据这些靶点的物性,寻找能够正好“嵌入”进这些靶点的分子结构,然后设计合成出相应的药物,再经过大规模的实验,最终生产出能够治疗对应疾病的药物(游戏玩家们,最终解决新冠病毒的历史重任可能要落在你们肩上了​)。

典型的例子是对于癌症的治疗。治疗癌症的常见方法如化疗等,因为在杀死癌细胞的同时,还会杀死很多正常的人体细胞,所以会引起很多副作用,甚至导致患者的死亡。

但是靶向药物,因为其设计的就是专门为了和癌细胞独有的蛋白质结构结合,所以能够精确的定位到病变位置,选择性地干预肿瘤细胞的生长、生殖和转移,从而达到治疗的目的,并且不会引起患者的治疗反应。

例如《我不是药神》中的救命药格列卫,就是瑞士诺华研制的一类针对于白血病的肿瘤靶向药。针对的靶点为Bcr-Abl,C-KIT,PDGFR等。对于延长患者的生存期,具有显著的作用。

于是我们不禁在想,如果我们有一部像元素周期表一样的生物蛋白质结构图表的话,那么我们就可以很容易的发现哪些蛋白质结构是健康的,哪些是出了问题的,然后还可以针对出问题的原因,计算出什么样的分子能够治疗他们,然后再想办法合成出这样的分子就好了。

事实上,很多科学家们都在做这样的事情。

而AlphaFold,就是这种探索最终凝结出的划时代成就。它是DeepMind公司的一个人工智能系统。它基于大量的对于人体蛋白质数据库的深度学习,成功预测了大量的人体蛋白质结构。

2020年11月30日,AlphaFold 2在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构达到了只差一个原子的宽度,可以媲美人类利用冷冻电子显微镜等复杂仪器观察预测的最高水平,这是蛋白质结构预测史无前例的巨大进步。虽然由于领域所限的原因,这一重大成果虽然没有引起媒体和广大民众的关注,但生物领域的科学家反应强烈。事实上,这个成果比起ChatGPT来,对人类生活的影响可能要大得多得多。

随后DeepMind创始人兼执行官Demis Hassabis在《Nature》杂志上分享了AlphaFold的开源代码,并发表了系统的完整方法,并且详细地说明了AlphaFold是如何做到精确预测蛋白质3D结构的。

更加令人意想不到的是,在AlphaFold2开源仅仅一周后,DeepMind又开放了AlphaFold数据集。开放的数据集不仅包括人类蛋白质组,还有大肠杆菌、酵母、果蝇、小鼠、水稻、拟南芥等模式物种在内的20多种物种的大部分蛋白的预测结构,总计超过35万个蛋白质的结构。

DeepMind还与欧洲生物信息研究所(EMBL-EBI)合作建立了一个平台—AlphaFold DB(AlphaFold蛋白质结构数据库),将他们的预测结果免费开放给公众。

目前该数据库已经包含了2亿余种蛋白质结构,并且还提供了很多人造蛋白质结构,供全世界的研究者们共同研究使用。

说起来这帮货够二的,都不知道把这么好的东西留着自己偷偷发Nature用。

AlphaFold的出现,或许最终将把生命的组成奥秘清晰的展现在世人的面前,从而让人类对世界上最为玄奥的生命法则,有了更深的理解,或许有一天,真正能揭开生命的奥秘也未可知。

不过,操纵生命法则和时间法则,将不可避免的沾染因果之力。

或许那个时候,人们会发明很容易通过血脑屏障,而又无更多副作用的毒品。又或许,人们可以无限制的使用金钱,抑制自己身体里面的潜在的危机。

事实上,这种事情并非没有发生过。毒枭刘招华,就研究出了最为经济实惠的合成甲基苯丙胺的路线,他的冰毒制作成本比原来制毒原料麻黄碱都便宜(看过《湄公河行动》的读者一定对麻黄这个词有印象)。所以毒品圈子的人说:“在刘招华制毒之前,其它冰毒都是一坨屎。”

或许那个时候,人们会怀念那个对人体还充满敬畏的时代。

喜欢本文的话,欢迎关注活在信息时代哦:)

0 阅读:24
活在信息时代

活在信息时代

关注信息时代的技术发展与社会伦理变迁