上QQ阅读APP看书,第一时间看更新
第三节 系统树重建:最大简约法
与前几章所描述的系统树重建的方法不同,简约法使用的是序列联配的信息,而非进化距离,最初仅用于核苷酸序列的建树分析。它的一些基础思想是由Farris, J. S.(1970年)和Fitch, W. M.(1971年)提出,其认为最符合进化历史的系统树应该是包含最少替换次数的,演化历程应遵循简约性原则。其应用于分子进化领域,优点在于降低了多序列比对的计算要求,着重区分差异化的信息位点(informative site)用来帮助构建系统发育树的拓扑结构,从而在不断增长的庞大序列样本分析需求中获得更高的计算效率,降低序列比对的计算和分析成本。同时,简约法的局限性在于它假设了具有相同核苷酸位点信息的序列必定在基因上相关的,而这个假设在生物进化历程中不一定成立。另外,值得思考的是并没有直接证据表明“进化遵循了简约性原则”。
一、简约法的原理与分类
(一)简约法的原理
简约法最早源于形态学研究,之后推广到分子进化研究领域。Sober等(1988年)认为,系统发育重建时所需的历史进化信息越少,则所得的结果就越可信。最大简约法是直接将多重联配中的每个位点的突变信息进行纵向比较统计,确定差异位点“从叶到根”所需变异的最小数目;按照不同的树的拓扑结构,所有差异位点所需变异或转换代价的总和最小值(最大简约评分),其对应的树的拓扑结构即为最优树。
(二)简约法的分类
简约法按照是否同等地看待所有的突变,分为非加权简约法(unweighted parsimony)和加权简约法(weighted parsimony)。加权简约法允许对突变事件进行加权,从而避免在关系较远的序列比较中低估位点变异的差异,避免低估所需最少突变的次数。
二、非加权简约法
在非加权简约法中,所有突变都有相同的权重。因此,可以采用后序法(post order traversal)由“叶”及“根”计算内部节点的变异最小数量。其基本步骤包括:
1.在每个节点上指定一个或一组碱基,代表其直接子代在该变异位点的可能的碱基组合。
2.按照“从叶到根”的顺序,统计各节点指定碱基后各碱基(A, C, G, T)突变的数量以及分布,其中突变数量最多和次多的碱基分别建立集合A和B。
3.按照“从根到叶”的顺序,推测各节点指定碱基集合的完整性,并修正指定碱基集合。如果一个指定碱基在子节点集合A中,那么该子节点应指定该碱基;如果指定碱基不在父节点集合A中而在子节点集合B中,那么子节点可能的碱基集合应新增该碱基;如果指定碱基不在子节点集合A也不在子节点集合B中,那么子节点指定碱基集合为父节点集合A。依次完成对所有内部节点的碱基指定,而指定碱基集合的可能组合将全部被发现。
4.假设每次指定都有一个成本 S,对每一种指定碱基集合的组合进行 S的计算。当树根部 S取最小值时,为最优的建树拓扑结构。其公式为:
式(10-10)中,父节点的成本由各个子节点的成本加1之和,并减去子节点中最大突变碱基的数量。在各种可能的树拓扑结构中,选择树根 S最小的拓扑结构作为系统发育树。
三、加权简约法
(一)加权矩阵的设置
由前面章节介绍的分子进化模型我们知道,实际上突变不是对等或均衡的,统计位点突变信息应根据需要给予不同突变一个合适的加权,以反映该物种或序列在位点突变速率、转换或颠换速率上的差异。
在最大简约法中,我们常用权重矩阵来区分不同类型的突变偏好。例如,在分析时间维度较大的进化历程时,可以不考虑碱基转换所带来的位点差异,因此转换的权重为0。又如,氨基酸序列不同位置密码子(第1、第2、第3)的突变也具有差异,在使用最大简约法时应考虑设置权重矩阵来修正。在考虑权重时,我们会使用Sankoff算法对最大简约值 S的计算过程进行修正。
(二)最大简约法重建树
在实际计算中,以核苷酸序列分析为例,当有M条序列每条序列有N个核苷酸信息位点时(MEGA等软件可以自动识别并标注M条序列联配结果中的信息位点),每一次计算系统会选择1个信息位点列作为输入信息。
然后,类似于第二节非加权简约法的步骤,在可能的树拓扑结构中搜索最大简约值最小(树根 S最小)的系统发育树。前面我们讲到,当序列较多时,可能的树拓扑结构数量增长很快,因此,一般采用启发式搜索(heuristic search)的方式获得该信息位点列的最优近似解。
以此类推,得到N个信息位点列的N个最大简约树,再采用树长比较法、频率法等获得最终的全局最大简约树。
最后,采用重采样的过程(bootstrap)评估获得的最大简约树。重采样过程中,系统会按照参数设定(bootstrap值一般不少于100)随机可重复地抽样每一个信息位点列,重复上述步骤计算获得大量新的最大简约树,并与原最大简约树比较,获得每个分枝节点的支持率,从而构建出最大简约法的一致树(consensus tree),以证明其可靠性。