分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第二节 系统树重建:距离法

一、UPGMA方法
不加权组平均法(unweighted pair-group method using arithmetic average, UPGMA)是最早出现的建树方法之一,是Robert Sokal和Clarles Michener在1958年提出。它假设所有位点以相同速率变异,即存在一个恒定的分子钟。因此,序列的差异都是能够使用“分子钟”这把标尺进行准确度量的。而且,相对于共同祖先来说,所有后代都具有相同的进化距离。最短进化距离的两条序列前必然会首先出现最近的内部节点。使用UPGMA法构树的整个过程,就是依次由近及远找出系统发育树的所有内部节点,每次重建一个内部节点。具体过程如下:
1.将所有序列放在单独的数据集合中,每个数据集仅包含一条序列。
2.分步骤将进化距离最短的两个集合(A与B)重新组成新的数据集C,当两个集合所包含的序列大于1时,计算两个数据集进化距离的算术平均数;
其中, d AB表示集合A与集合B序列间进化距离的算术平均数,也是新数据集C在整个进化树的内部节点位置, N AN B分别表示集合A与B所含序列的数量, d ij表示序列i与序列j之间的进化距离。
3.所有合并数据集产生的内部节点按照标注的位置(已知进化距离算术平均数)连接起来,构成完整的系统发育树。
由此,我们看到使用UPGMA方法产生的进化树必然是有根且等距的超度量树(ultrametric tree)。
二、Fitch-Margoliash方法
如果我们不假设分子钟恒定,但是假设进化距离是可以准确度量并可以进行相加运算的,那么就可以通过A、B、C三个集合间的进化距离估计其内部存在的内部节点的位置及各分支的长度。具体过程如下:
1.与UPGMA方法相同,使用进化距离的算术平均数计算集合A、B、C之间的分支长度 d ABd BCd AC,如图10-3所示。
图10-3 Fitch-Margoliash方法构建三分支的无根加性树
2.基于进化距离估计内部节点上各分支长度,由式(10-5)可以得到:
由此可见,Fitch-Margoliash方法能够以类似UPGMA的方式从序列构成的数据集中通过获得最短进化距离的算术平均数而得到树的拓扑结构。不同之处在于,Fitch-Margoliash方法没有假设恒定的进化速率,因而需要额外计算内部节点的分支长度,而不能像UPGMA那样直接使用分子钟标尺对所有分支进行统一的长度标记。值得一提的是,Fitch-Margoliash方法适用于无根树的构建,应用范围更广;其局限性在于仅从进化距离最短来判定相邻序列,可能与实际进化历史不符,从而导致建树失败。
三、Neighbor-joining方法
邻接法(neighbor-joining, NJ)是由Naruya Saitou和Masatoshi Nei于1987年提出,并成为最初MEGA软件的主要构树方法。与Fitch-Margoliash方法类似,NJ法不假设恒定的进化速率。而且,其在计算内部节点分枝长度时,引入了最小进化的假设,即内部节点各分枝长度总和S最小。时至今日,NJ法对于大型数据集建立系统发生树仍是最高效的,MEGA7(2016年发布)能够在100min完成约10 000条序列的建树过程,耗时仅为最大似然法(ML)的1/250。
NJ法构树总枝长S由下面的公式给出:
应用NJ法构树,通常是从一棵星状树(star tree)开始,如图10-4左侧,所有外部分枝(序列)都直接连接在一个内部节点X上,没有任何内部分枝。然而,实践中X节点可能无法直接获得。1988年,James A.Studier对NJ算法给出了明确的关键性解释和应用流程,并被广泛使用。其步骤如下:
1.基于给定的N条序列计算进化距离矩阵D。
2.计算任意一对序列i和j的枝长特征矩阵 SS中的元素由下面的公式定义:
3.选择一对 S ij值最小的序列创建新的内部节点u。
图10-4 左:NJ法起始状态:星状树;右:确定序列1和2为第一对最邻接序列后,创建内部节点Y并由一个内部分枝分隔(来源于Naruya Saitou,1987.)
4.计算并给出邻接节点i和j到新节点u的距离,如下式:
5.使用Fitch-Margoliash方法计算其他节点到新节点u的距离。
6.将邻接节点i和j用新节点u代替,重复上述步骤,重新计算(N-1)条分枝的进化距离矩阵并获得新的邻接分枝及分枝长度,直至树的所有分枝都被找到和计算分枝长度,完成系统发育树的构建。
由此,我们可以看到NJ法每一步仅找出一对邻接节点,并逐步完成树的构建,产生的树是无根加性树。这种采用最小进化作为选择标准,分级逐步构建树的方式,可适用于不同阶段拥有不同进化速率的情况,更能正确的重现序列的进化历史,也是目前最常用的系统树重建方法之一,其原理被后来的最大似然法(ML)构树所借鉴。