正文:https://www.nature.com/articles/s41586-021-03819-2

补充文件:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdficon-default.png?t=LBL2https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-021-03819-2/MediaObjects/41586_2021_3819_MOESM1_ESM.pdf学习视频(强烈推荐):

【公开课】基于AI预测蛋白质折叠的三维空间结构——AlphaFold2原理及安装使用_哔哩哔哩_bilibili

1. 搜索同源序列和模板:

去按序列数据库以及PDB数据库中去搜索同源序列和模板

给定序列A,到Uniref90、MGnify、Uniclust30、BFD数据库中搜索他的同源序列,从Unire90中得到MSA。然后到PDB70中搜索同源模板得到对应的mmCif文件

1)当相似度高于50%,常推测检测序列和目标序列有可能是同源序列。

2)MSA

MSA是Multiple Sequence Alignment的缩写,即多序列对齐,这个技术用于从一个大的数据库中抽取和输入氨基酸序列相近的序列,并且顺便进行对齐。抽取这个特征的原因是类似的氨基酸序列一般来说折叠方式也类似,相当于在特征中就加入了相近的序列结构信息。

这里我们举个例子,HHblit工具也可以用来做MSA,在网站中输入用于举例的59个氨基酸组成的序列,HHblit工具就会在数据库中开始搜索序列与之相近的氨基酸序列,并且进行对齐。检索完成后会显示查询结果,而这些氨基酸序列与输入序列的对齐也会作为输出的一部分:

https://pic2.zhimg.com/80/v2-92d6e895ace704cf767efe4389080e71_1440w.jpg

那么这样一来,这些比较接近的氨基酸序列和其结构也可以作为特征的一部分来辅助模型判断,这是一个很典型的将专家知识加入机器学习系统的方法。作者也提到如果不加上MAS特征,准确率会掉将近10个点。所以MSA特征是AlphaFold的一个重要组成部分。

2 特征构造

通过同源序列和模板表示成深度学习可以作为输入的矩阵结构

 

21:one-hot+unknown

49:

 

25:

剩下的维度没看明白。

3 特征表示

用这6个矩阵构造MSA和pair respresentation矩阵

如下图,MSA包含了多物种信息特征,pair representation只包含一个物种的信息

 

Input feature embeddings. Dimension names: r: residues, f: features, c: channels, sc: clustered MSA sequences, se: extra MSA sequences, st: template sequences.

4 MSA表示与残基对表示之间互换交换信息

由于物种进化的共变信息是蛋白质结构预测的重要信息来源,将共变信息融合到单一物种是通过Evoformer结构实现的。

 

1)从MSA中提取蛋白质的共变信息

a. MSA row-wise gated self-attention with pair bias

每次取一条(行)序列进行更新:self-attention并加入残基对的信息,构建残基之间的进化关系 。

b. MSA column-wise gated self-attention

每次取1列:来自不同序列的相同残基交换信息

c.Transition

把通道*4,再恢复成原来的通道数

2)把蛋白共变的信息加入到残基对表示中

取任意一对残基的特征,计算外积取均值以后更新到残基对中表示

3)通过周围的残基对来更新当前的残基对:有助于学习到位置信息

Triangular multiplicative——outgoing

使用和残基i以及残基j共起点活共终点的边来更新边

Triangular self-attention

使用从i出发或者终止的所有边来更新边(i,j)

5 残基的抽象表示转换成具体的三维空间坐标

 

Fram与蛋白质结构的关系

C原子转到全局坐标系下,*Fram;对Fram求逆,得到局部坐标系

 

取MSA第一行,代表的是当前氨基酸的簇,

1)Single repr得到方法:IPA

绿色的表示三维空间中距离越近的残基对,注意力越高,最终更新

2)backbone得到方法

上图4元组是Fram的另外一种表示方法,表示一个对象在三维空间中的方向和旋转的一种方式,可以等价替换为旋转矩阵,通过公式计算Fram,对原来的Fram进行调整

6 计算Loss(FAPE)

 

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐