编辑
萝卜皮
计算蛋白质设计(CPD)在医疗、生物传感器、酶工程等与人类健康生活息息相关的领域,均起到了基础支持作用。蛋白质逆向折叠(通过结构预测序列)则是CPD最主要的研究方向之一。
在最近的一项研究中,芝加哥丰田计算技术研究所的许锦波教授团队建立了一个解决逆向蛋白质折叠问题的框架。尽管该模型没有明显使用进化信息,但它能够从结构数据中学习到蛋白质功能,并且优于在大型序列数据库上训练出来的蛋白质语言模型。研究人员希望,他们的模型能够促使其他研究人员进一步使用结构信息来预测蛋白质突变效应。
该研究以「ADeepSE(3)-EquivariantModelforLearningInverseProteinFolding」为题,于年4月15日发布在bioRxiv预印平台。
CPD的研究近况计算蛋白质设计有两个广泛尝试的目标:1、逆向折叠,也称为固定骨架设计,其目的是生成兼容事先给定的蛋白质骨架结构的新氨基酸序列;2、从头设计,其目的是开发具有某些所需性质的蛋白质序列。通过设计自然界不存在的蛋白质,这些方法促进了生物医疗、生物传感器、酶等领域的发展。
由于传统观点认为蛋白质的天然状态对应于其自由能最小值,因此CPD传统上被视为能量最小化问题。在这种情况下,能量函数通常由基于物理的能量项和基于知识的能量项的组合而成,后者通常来自实验数据。在能量优化期间,对蛋白质序列进行采样和突变,直到能量最小值。
尽管这种方法取得了一些成功,但它也有一些主要缺点。首先,搜索空间随着蛋白质序列长度呈指数增长。这对设计稍微大点的蛋白质提出了相当大的挑战。接下来,为了计算效率,总能量通常被近似为单体和两体分数项的加权和,而忽略了更复杂的多体相互作用。设计出来的蛋白质序列与天然类似物接近的程度受到能量函数准确性的限制。
许教授团队认为,如果能仅从结构数据中获得蛋白质功能有关的信息,那么仅以蛋白结构和部分序列为条件的生成模型,也可以用作一个对单点突变的功能影响的零样本预测器。
于是,在新的研究中,许教授团队扩展了他们前期关于侧链结构预测的工作,并引入了一种深度SE(3)-等变图transformer架构,直接对从蛋白质主干结构派生的特征进行操作,实现了同时预测每个残基的氨基酸类型和侧链构象。
该架构由两个主要的子模块组成:12层LocalityAwareGraphTransformer和8层TFN-Transformer。其中,LocalityAwareGraphtransformer利用蛋白质主干的几何形状来优化单个残基和残基对的特征表示,并将注意力限制在空间上相邻的残基对。该模块的输出和蛋白质主干坐标一起被传递到下一个模块TFNtransformer,该模块为每个输入残基产生侧链构象和氨基酸类型。这些模块的详细信息在许教授另一篇文献中有完整描述,下面给出了示意图。
文献链接:转载请注明:http://www.0431gb208.com/sjszlff/1081.html