心动的足迹: bioinformatics生物信息学软件Geneious 中关于alignment比对的相关参数解释

Needleman-Wunsch，PAM250、BLOSUM62、BLOSUM90、BLOSUM30，CLUSTALW，在geneious的比对参数里面有很多这样那样的设置，那么，他们是什么含义，我们应该怎样设置呢？

以下是相关解释
Needleman-Wunsch算法：
是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略（Needleman and Wunsch,1970）。动态规划的思想是这样的，如果一条路径终止于最佳路径上的一点，那么这条路径本身就是起点到这个中间点的最佳路径，也就是说，任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这样，最佳路径就可以通过把各个最佳的次级路径连接而成。在基本的Needleman-Wunsch公式表达中，最佳比对必然对每个序列都由始至终，就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。
然而，对这种基本策略稍作修改就可以实现最佳的局部比对。这种比对的路径不需要到达搜索图的尽头，只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队的数量而增加时，这种比对就是最佳的。这个过程依赖于打分系统的性质，就是说某种路径的打分会在不匹配的序列段位置减少（以下叙述的打分系统合乎这个标准）。当分值降为零时，路径的延展将会终止，一个新的路径就会应运而生。这样，我们会得到许多独立的路径，它们以不匹配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路径中，拥有最高分的一个就是最佳的局部比对。
应该意识到，寻优方法总是把最佳的比对方法表达出来，而不在意它是否具有生物学意义，另一方面，寻求局部比对时可能会发现若干个重要的比对，因此，不能仅仅注意最佳的一个。改良的Smith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)算法把寻找K种最好的但不相互交叉的比对方式最为目标，这些思想后来都在SIM算法(Huang et al.,1990)的发展中得以体现。一个名叫LALIGN（在FASTA程序包中）的程序提供了有用的SIM工具(Pearson,1996)。对于比对多模块的蛋白质而言，寻找次优比对尤为重要。

PAM和BLOSUM
在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系，显然这种方法无法描述残基取代对结构和功能的不同影响效果，缬氨酸对异亮氨酸的取代与谷氨酸对异亮氨酸的取代应该给予不同的打分。因此如果用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的取代矩阵，但国际上常用的取代矩阵有PAM和BLOSUM等，它们来源于不同的构建方法和不同的参数选择，包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。对于不同的对象可以采用不同的取代矩阵以获得更多信息，例如对同源性较高的序列可以采用BLOSUM90矩阵，而对同源性较低的序列可采用BLOSUM30矩阵

详细的说，在比较蛋白质时，我们可以用取代矩阵来增强弱势比对的敏感性。很显然，在相关蛋白质之间，某些氨基酸可以很容易地相互取代而不用改变它们的生理生化性质，这些保守取代的例子包括异亮氨酸（isoleucine）和颉氨酸（valin）（体积小，疏水），丝氨酸（serine）和苏氨酸（threonin）（极性）。在计算比对分之时，相同的氨基酸打分会高于取代的氨基酸，而保守的取代打分高于非保守变化，换句话说，设计了一系列的分值，而且，在比对非常相近的序列（mouse和rat的同源基因）以及差异极大的序列（mouse和 yeast的基因）时会设计出不同系统的分值，考虑到这些因素，使用取代矩阵会极为有利，在这个矩阵中，任何氨基酸配对的分值会一目了然。
第一个广泛使用的最优矩阵建立在进化的点突变模型上（PAM）（Dayhoff et al.,1978）。一个PAM就是一个进化的变异单位即1%的氨基酸改变，这并不意味着经过100次PAM后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次改变，甚至可能变回到原先的氨基酸，因此另外一些氨基酸可能不发生改变。如果这些变化是随机的，那么每一种可能的取代频率仅仅取决于不同氨基酸的出现的频率（称为背景频率）。然而，在相关蛋白中，已经发现的取代频率（称为目标频率）大大地倾向于那些不影响蛋白质功能的取代，换句话说，这些点突变已经被进化所接受。Dayhoff同合作者们第一次使用了log-odd处理，在这种处理中，矩阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率，人们用非常相近的序列（比对时不需要取代矩阵）来收集对应于一个PAM的突变频率，然后将数据外推至250个PAM，PAM250矩阵结果如图7.7。虽然Dayhoff等人只发表了PAM250，但潜在的突变数据可以外推至其它PAM值，产生一组矩阵，在比较差异极大的序列时，通常在较高的PAM值处得到最佳结果，比如在PAM200到250之间，较低值的PAM矩阵一般使用于高度相似的序列（Altschul,1991）。

用同样方式建立了BLOSUM取代矩阵，但在评估目标频率时，应用了不同的策略，基本数据来源于BLOCKS数据库，其中包括了局部多重比对（包含较远的相关序列，同在PAM中使用较近的相关序列相反）。虽然在这种情况下，没有进化模型，但它的优点在于可以通过直接观察获得数据而不是通过外推获得。同PAM模型一样，也有许多编号的BLOSUM矩阵，这里的编号指的是序列可能相同的最高水平，并且同模型保持独立性。举例来说，如图7.8所示的BLOSUM的矩阵，至少有62%的相同比例的序列被组合成一个序列，因此取代频率更加受到那些比空位变化还大的序列的极大影响，取代矩阵在处理高度相似序列时使用高的阈值（直至BLOSUM90），处理差异大的序列时使用低的阈值（直至BLOSUM30）。

PAM和BLOSUM之间的区别

PAM矩阵根据一个明确演变模型(即替换在一棵种系发生的树的分支计数)，而BLOSUM矩阵根据演变一个含蓄模型。
PAM矩阵根据变化被观察在全球性对准线中，这包括高度被保存的和高度可变的地区。 BLOSUM矩阵根据高度被保存的地区仅参加一系列禁止的对准线包含空白。
使用的方法计数替换是不同的：不同于PAM矩阵， BLOSUM做法使用之内不是所有的变化计数同样的小组序列在。
而大数在BLOSUM矩阵命名计划表示更高的序列相似性并且更小的演变距离，高数量在PAM矩阵命名计划表示更大的演变距离。例子： PAM150为更加遥远的序列比PAM100使用; BLOSUM62为更加接近的序列比Blosum50使用。
有观点认为，PAM模型可用于寻找蛋白质的进化起源，而BLOSUM模型用于发现蛋白质的保守域。

多序列比对的方法选择

顾名思义，多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中，现有的大多数算法都基于渐进的比对的思想，在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后可以对比对结果进行进一步处理，例如构建序列模式的profile，将序列聚类构建分子进化树等等。

目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。

CLUSTALW的程序可以自由使用，在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单逐步指导用户进行操作，用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务，用户可以把序列和各种要求通过表单提交到服务器上，服务器把计算的结果用Email返回用户。

CLUSTALW对输入序列的格式比较灵活，可以是前面介绍过的FASTA格式，还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择，有ALN、GCG、PHYLIP和GDE等，用户可以根据自己的需要选择合适的输出格式。

用CLUSTALW得到的多序列比对结果中，所有序列排列在一起，并以特定的符号代表各个位点上残基的保守性，“*”号表示保守性极高的残基位点；“.”号代表保守性略低的残基位点。

我认为，在多序列比对中，geneious的比对不如clustal严谨（也可能是我参数设置的问题）。寻找同源区域时没有显著差别，但是构建进化树时，强烈建议使用clustal作为比对工具。

心动的足迹

Wednesday, June 30, 2010

bioinformatics生物信息学软件Geneious 中关于alignment比对的相关参数解释

No comments:

Addthis

Labels