基于骨架结构的蛋白质序列设计是全新蛋白质设计的关键问题之一。近年来,随着深度学习方法和技术的发展,全新蛋白质序列设计取得了重要进展。其中代表性的工作包括ProteinMPNN、ABACUS-R、ProDesign-LE等,都在序列设计中取得了重要进展,并进行了相应的实验验证。然而,这些代表性的方法在模型训练和结果输出中均没有直接考虑蛋白质侧链的原子细节信息。一方面,蛋白质侧链构象对蛋白质执行功能具有重要作用。另一方面,大量的序列设计算法依赖结构预测来评估设计序列的可靠性,而单序列结构预测依旧是一个非常大的挑战。近期,北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心/北京大学成都前沿交叉生物技术研究院教授来鲁华和北京大学化学与分子工程学院副研究员张长胜团队发展了全原子蛋白质序列设计的深度学习算法GeoSeqBuilder,这一成果近期发表于AngewandteChemie1,文章初稿2024年3月以预印本形式发表2。GeoSeqBuilder在生成序列的同时,也给出了高精度的侧链构象,可以更直接给出原子之间的相互作用,不需要进行单序列结构预测。GeoSeqBuilder在天然蛋白质结构、全新设计结构和酶的序列设计的实验测试中获得了高成功率,解析的晶体结构与设计结构模型在原子尺度细节上高度吻合。
GeoSeqBuilder主要包含三部分:(1)多尺度图卷积网络用于学习中心残基周围5阶邻居的环境信息;(2)三角网络用于表示学习残基水平的二体和三体相互作用;(3)迭代模块基于以上网络从起始序列出发更新序列,多步迭代后得到收敛序列。GeoSeqBuilder最终输出设计序列对应的蛋白质全原子模型。具体见图1。
GeoSeqBuilder在CATH4.3数据集上进行训练和验证,序列恢复率达到了52%,与ProteinMPNN等方法的表现类似。此外,GeoSeqBuilder设计出来的各位点的残基类型通常和野生型具有相似的物理化学性质。GeoSeqBuilde生成的各种残基的丰度与天然蛋白类似。GeoSeqBuider对侧链构象预测的结果也远优于基于传统能量函数的方法FASPR和Scwrl4(见图2)。
该工作首先选择了两个典型的蛋白质折叠骨架对GeoSeqBuilder生成的序列进行实验验证,包括天然硫氧还原蛋白(1FB0)和通过幻想模型人工设计的螺旋束骨架(0705)。作者分别为其设计了9条和6条序列,这些序列均可以在大肠杆菌中以可溶形式表达。对硫氧还原蛋白重新设计的序列具有很高的热稳定性,热变性温度较野生型蛋白提高了40摄氏度,X-射线晶体学结构解析表明设计的全原子模型与所解出的晶体结构高度吻合,并且设计蛋白质拥有新的疏水堆积核心,具体见图3。
以上结果表明GeoSeqBuilder学习到了蛋白质折叠结构和序列的关系,可以在保持蛋白质折叠结构正确性的同时设计出新的疏水核心。一般认为疏水核心在蛋白序列的自然进化过程中是比较保守的,疏水核心重新设计后的蛋白是否还会保持原有的功能是一个很有趣的问题。作者选择细胞铁死亡中的关键蛋白谷胱甘肽过氧化物酶(gpx4,PDB代码2obi)作为研究对象,固定gpx4的溶剂暴露残基位点,只设计gpx4的疏水核心区域,并选择5条序列进行实验验证,其中4条序列的蛋白可以测出gpx4的酶反应活性,3条活性高于野生型蛋白。作者随后解出了这4个有酶活性的设计蛋白的高分辨晶体结构,均与计算设计的结构模型在原子水平上高度一致(图4)。
该工作发展了一种基于蛋白质骨架结构和全原子模型的序列设计方法GeoSeqBuilder。该方法所设计的蛋白质可溶性好、表达量和热稳定性高,可以折叠成预设计的蛋白质结构。值得注意的是,GeoSeqBuilder不仅提供了与实验结构一致的侧链构象,新设计的序列还提供了多样化的疏水核心堆积方式,从而扩大了序列景观。GeoSeqBuilder不仅在蛋白质序列从头设计中具有重要意义,而且为蛋白质工程和蛋白质序列结构关系研究提供了新的视角。GeoSeqBuilder目前已开源,为蛋白质相关的科学研究和生产开发提供了得力的工具。
该工作的第一作者为北大-清华生命科学联合中心2020级研究生刘佳乐,通讯作者为来鲁华、张长胜。北大-清华生命科学联合中心研究生郭政、北大化学学院博士后由瀚天对该工作的完成作出了重要贡献。相关工作得到了国家重点研发计划(2022YFA303700)和国家自然科学基金委员会项目(21977007,22237002,T2321001)的资助。
参考文献
[1]JialeLiu,ZhengGuo,HantianYou,ChangshengZhang*,andLuhuaLai*.All-AtomProteinSequenceDesignBasedonGeometricDeepLearning.Angew.Chem.Int.Ed.2024,e202411461.
[2]JialeLiu,ZhengGuo,ChangshengZhang*,andLuhuaLai*.All-atomproteinsequencedesignbasedongeometricdeeplearning.bioRxiv(2024):2024-03.