前言

真核生物基因组存在64个密码子,这64个密码子编码20种不同的氨基酸和3个终止密码子,除蛋氨酸(Met)和色氨酸(Trp)外的所有氨基酸均由一个以上密码子编码。编码同一氨基酸的不同密码子互为同义密码子,不同的同义密码子被使用的频率并不一样,被频繁使用的密码子是“偏好密码子”,而其他密码子则是“非偏好密码子”,这种现象被称为“密码子偏好性”。 一般认为,密码子偏好性的成因是不同密码子对应的tRNA在细胞里的丰度不一样。 一般而言,tRNA丰度越高,其对应的密码子的使用频率也会越高。


一、相关参数介绍

1、CUB:密码子使用偏好性(codon usage bias),不同的同义密码子被使用的频率并不一样,被频繁使用的密码子是“偏好密码子”,而其他密码子则是“非偏好密码子”,这种现象被称为“密码子偏好性”。

2、RSCU:相对同义密码子使用度 (relative synonymous codon usage),RSCU定义是以某一个同义密码子的使用次数为分子,以该密码子预期出现的次数为分母。其中,预测出现的次数为该密码子所编码的氨基酸的所有密码子平均使用的次数。

如果密码子使用没有偏好,则该密码子的RSCU值等于1。当某一密码子的RSCU值大于1,则表明其的使用频率相对较高。由于它计算方便,而且很直观的反映出密码子使用的偏好性,因此在大多数的密码子相关分析中,都使用了它作为衡量偏好性的标准

3、ENC:有效密码子(effective number of codon),反映的是密码子偏离随机选择的程度,是反映同义密码子非均衡使用偏好程度的重要指标,通常高表达基因其密码子偏好程度较大,因此ENC取值较小; 低表达基因含有较多种类的稀有密码子偏好性较弱,ENC取值也较大。ENC取值范围为20(每个氨基酸只有1个有效密码子)~61(所有的密码子都均衡使用),可以通过比较ENC值来确定内源基因表达量的相对高低。

4、CBI:密码子偏性指数(codon bias index),反应了一个基因中高表达优越密码子的组分情况。对目的宿主自身的基因 , 该指数和 ENC 值有很好的相关性,但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况, 故而得到广泛应用。

5、CAI密码子适应指数(codon adaptation index),对于某一个基因,CAI是指编码该蛋白的所有密码子相对于这条基因都使用最优密码子的情况下的适应系数,CAI值介于0~1之间,该值越大表示适应性越强,CAI值广泛应用于基因表达水平的评估中。

6、Fop:最优密码子使用频率(frequency of optical codons),最优密码子是指在某物种高表达基因中使用频率最高的密码子,也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子 tRNA 基因的密码子。该指标是指最优密码子和其同义密码子的比值,和CAI计算一样,需要已知高表达基因的最优密码子。FOP的取值范围为0到1之间,1表示只有最优密码子被使用,0则表示没有最优密码子被使用到。

7、GC、GC3:GC3指的是基因中所有密码子的第3位的GC含量,即除了蛋氨酸、色氨酸和终止密码子外,G和C出现在密码子第三个位置的频率。

8、GC3-GC12分析:也称之为Neutrality-plot分析,密码子第3位的改变通常不会引起编码氨基酸的改变,第3位上的碱基突变受到的选择压力比较小,因此研究第3位碱基的碱基组成对研究密码子偏好性有重要意义。统计密码子3个位置的GC含量,用GC1、GC2、GC3分别表示第1,2,3位的GC含量,GC12表示GC1和GC2的平均值。

通过分析密码子的第1,2位和第3位碱基组成的相关性,研究密码子的偏好性影响因素。当GC12与GC3之间显著相关,说明3个位置上的碱基组成无差异,密码子的使用受突变的影响。当GC12与GC3相关性不显著,说明第 1,2位和第3位碱基组成不同,基因组GC含量高度保守,密码子的使用更多地受选择影响。

9、ENC-plot 分析:用GC3和ENC分别作X轴和Y轴进行ENC-plot分析,可以检测碱基组成对密码子偏好性的影响。基因沿标准曲线分布或落在标准曲线附近表示该基因密码子偏好性仅受突变影响,基因落在标准曲线下方较远的位置表示该基因密码子偏好性受到选择的影响。

10、PR2-bias-plot 分析:密码子偏好性完全不受碱基位置影响,碱基A/T及G/C应均衡分布,即A=T\G=C。PR2-bias plot 分析计算每个基因A3/(A3+T3)和G3/(G3+C3),PR2偏倚图中心点表示A=T且C=G,其余的点由中心点向该点发出的矢量表示了该基因的偏倚程度和方向。

二、codonW的使用

打开codonW压缩包,把自己要分析的序列放入该文件夹下,打开codonW应用程序

 打开后如图,菜单中我们主要用到的就是(1)load sequence file 导入文件;(4)codon usage indices 选择密码子使用参数;(R)Run C-codons运行程序;(Q)Quit 停止

 首先输入 4,敲回车键,出现如下界面。不同的数字代表不同的参数计算,如果想要计算所有的参数,就输入12 select all

回车后出现如下界面,输入X回到初始菜单界面

在初始界面中,输入1,开始上传文件

回车后出现如下界面,将自己要上传的文件拖进去,回车即可

 回车后会出现默认输出文件的位置和名字,一般是和输入文件一样

继续回车后回到初始菜单,输入R,运行代码

此时会跳出命令,我们一般是默认参数,一直回车

运行完回车会跳回主菜单,这时候要输入Q结束运行,不能直接关闭窗口,否则数据不会写入文件

输入Q后回车,窗口自动关闭,这时候打开文件夹就可以看到自己的结果文件了

三、EMBOSS:CUSP的使用

      这个在线工具主要是为了计算第一、第二和第三位密码子的 GC 含量(用 GC1, GC2, GC3 表示)以便于后续的分析

网址为:EMBOSS: cusp (inra.fr)

打开后如下

 输入自己的序列或者是上载序列文件后,点击Run cusp即可


Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐