长臂猿
第4会合点是长臂猿跟我们相会的地方,地点很可能在亚洲,时间大约是1 800万年前。当时的世界处于早中新世,气候更温暖,植被更茂盛。不同权威学者对长臂猿的分类不同,但现代长臂猿最多可达18种。它们全部生活在东南亚,包括印度尼西亚和婆罗洲。以前它们大多被归入长臂猿属(Hylobates),而体形较大的合趾猿(siamang)因其标志性的喉部声囊被单列出来。如今人们意识到长臂猿其实应分成4个系群而非2个,那么再将它们称为“长臂猿和合趾猿”便显得过时了,所以我将把它们统称为长臂猿。
长臂猿属于小型猿,可能是史上最好的树上特技演员。在中新世有许多种小型猿。在进化中体形变大或者变小是很容易发生的变化。就像巨猿和大猩猩各自独立进化成大块头,许多猿也在中新世这个猿类的黄金时代变得体型更小。比如,上猿(pliopithecid)是一种在早中新世繁盛于欧洲的小型猿,尽管并非长臂猿的祖先,但它们的生活方式很可能相同,我猜它们也是用手臂挂在树上摆荡着前进的。
Brachia在拉丁语中意为“手臂”,吊臂摆荡(brachiation,也译“臂行”)的意思是用手臂而非双腿运动,而长臂猿尤其擅长此道。它们有一双大手用于抓握,再加上有力的手腕,简直像是一对倒着的风火轮,又像绷紧的弹弓一样,让它们可以在树木或枝杈之间摆荡。长臂猿那长长的手臂像极了物理学上的钟摆,把身体掷出去便可以一次飞跃树冠间长达10米的间隔。在我的想象里,这样的高速摆荡比飞翔还要刺激。我愿意设想我的祖先曾经有过这样的享受,那一定是生活所能提供的最佳体验之一。不幸的是,目前看来,我们的祖先不曾经历过跟长臂猿类似的阶段。不过有理由推测,4号共祖,即跟我们隔了大概100万代的远祖,是一种栖息在树上的小型猿,至少在某种程度上它可以熟练地摆荡运动。
在掌握直立行走这一困难技艺方面,长臂猿在猿类当中仅次于人类。长臂猿可以用双脚在树枝上行走,双手只用来保持平衡,然后从一根树枝摆荡到另一根树枝。如果4号共祖也具有同样的双足行走的技巧,并把它传给了长臂猿后代,那这项技艺是不是仍然残留了一部分在它的人类后代的大脑里,等着日后在非洲重现?这虽然只不过是一个令人愉悦的猜想,但它跟最近对地猿的重建结果相吻合,更何况猿类总体上本来就有时不时双足行走的倾向。4号共祖是否也像它的长臂猿后代一样拥有精湛的声乐技艺?如果是的话,这是否预示着人类声音在语言和音乐方面的多才多艺?对此我们只能猜猜而已。长臂猿还实行忠诚的一雄一雌制,不像跟我们关系更近的类人猿那样。实际上在这方面人也不同于长臂猿。在大多数人类文化中,习俗(有时候是宗教)鼓励着或者至少是容许着一夫多妻制的存在。我们不知道4号共祖在这方面是更像它的长臂猿后代,还是更像它的类人猿后代。
总结一下我们关于4号共祖的猜测。同往常一样,我们只做了一个弱假设,即4号共祖的许多特征是它的所有后代共有的,这包括所有猿类,当然也包括人类。跟3号共祖比起来,它很可能体形更小,也更专注于树栖生活。如果我所料不差,它们确实以手臂吊在树上摆荡前行,那么它们的手臂很可能不像现代长臂猿的手臂那么长,也没有那样特化适于摆荡运动。它的面貌看起来很可能跟长臂猿一样,短口短鼻。它没有尾巴,或者更准确地说,它的尾椎还在,但像所有猿类一样,在体内融合成一条短尾,即尾骨。
我不知道为什么我们猿类失去了尾巴。生物学家们对这个问题的讨论少得惊人。乔纳森·金登的《低起源》一书固然是个例外,但他也没能得出令人满意的结论。动物学家们遇到这个问题时常常采用比较的思维:看看哺乳动物无尾或短尾的特征是在哪里突然独立出现的,然后试图理解其中的道理。这是一件值得做的事情,但我不认为有人系统地做过这个工作。除了猿类,尾巴同样消失的还有鼹鼠、刺猬、马岛猬(tailless tenrec,学名Tenrec ecaudatus)、豚鼠、仓鼠、熊、蝙蝠、考拉、树懒、刺鼠以及其他一些哺乳动物。也许对于我们的目的来说最有趣的是无尾猴,或者说尾巴短得跟没有没什么两样的猴子,就像曼岛猫(Manx cat)一样。使曼岛猫失去尾巴的只是一个基因,这个基因纯合(即有两个副本)的时候是致死的,所以它不太可能在进化上传播开来。但我确实想过,会不会最初的猿就像是“曼岛猴”,无尾性状来自单个基因的异常。通常来说我反对这种有关“假想的怪物”(hopeful monster)的进化理论,但这次会不会是个例外?要是能够检查一下通常有尾的曼岛动物的无尾突变体的骨骼结构,看看它们是不是采用跟猿相同的方式实现无尾,这将会非常有趣。
巴巴利猕猴(Macaca sylvanus)是一种无尾猴,也许正是由于这个原因,它也常常被叫作巴巴利猿。西里伯斯猿(Celebes ape)或黑冠猕猴(Macaca nigra)是另一种无尾猴。乔纳森·金登对我说,它的外观还有走路的样子就像是一只小号的黑猩猩。马达加斯加有一些无尾的狐猴,比如大狐猴(indri),还有几个灭绝的物种,比如考拉狐猴(即巨狐猴,Megaladapis)和树懒狐猴(古原狐猴科),其中有一些体形堪比大猩猩。
在进化上,如果其他因素不变,任何不再被使用的器官都会退化,哪怕仅仅是出于经济的考虑。尾巴的用途在哺乳动物中具有惊人的多样性。羊在尾巴里储备脂肪。河狸用它划水。至于生活在南美树梢上的蜘蛛猴,它的尾巴好似“第五条腿”,有一个角质垫可以用于抓握。袋鼠那巨大的尾巴好像一个弹簧,可以帮助它跳跃。有蹄动物的尾巴被用来赶苍蝇。狼和许多其他哺乳动物用尾巴传递信息,但这对于自然选择来说,大概属于次要的“机会主义”做法。
但在这里我们需要特别关注的是在树上生活的动物。松鼠用尾巴捕捉风,于是它的跳跃就像滑翔一样。树栖生物大都长着长尾巴,用来保持身体的平衡,或者把尾巴当作舵,控制飞跃时的方向。我们将在第8会合点遇见的蜂猴(loris)和树熊猴(potto)会在树上悄悄爬行尾随它们的猎物,而它们的尾巴非常短。它们的近亲婴猴(bushbaby)是精力充沛的跳跃者,它长长的尾巴好像一根长羽毛。树懒没有尾巴,而考拉也许可以被看作树懒的澳大利亚版本,它也是如此。无论是树懒还是考拉,它们都跟蜂猴一样,在树上行动缓慢。
在婆罗洲和苏门答腊岛,长尾猕猴是在树上生活的,而它们生活在地上的近亲却长着猪尾一样的短尾巴。在树上很活跃的猴子通常有长尾,当它们在树枝上用四肢奔跑的时候,需要用尾巴保持平衡,而当它们在树枝间跳跃的时候,身体水平展开,尾巴就在身后伸直,好像一个平衡舵。长臂猿在树上的活跃程度不亚于任何猴子,为什么它们没有尾巴?答案也许在于它们有着非常不同的运动方式。我们已经看到,所有猿偶尔都会双足行走,而长臂猿要么悬吊摆荡,要么用后腿在树枝上奔跑,同时用长长的双臂保持平衡。很容易想象,尾巴对于一个双足行走的生物来说是多么讨厌。我的同事德斯蒙德·莫里斯(Desmond Morris)告诉我,蜘蛛猴偶尔会双足行走,但它长长的尾巴明显是个大累赘。当长臂猿把自己投向远处的枝条时,它的身体呈现悬垂的姿态,而不是像猴子那样水平纵跃。对于垂直摆荡的长臂猿来说,如果身后拖了一条尾巴,那它绝不是稳定舵,反而是阻力的来源。想必对4号共祖来说也是如此。
关于我们猿类为何失去尾巴的问题,我只能说这些,我觉得动物学家们需要给予这个谜题更多的关注。反事实的归纳法可以催生出一些令人愉悦的猜测。尾巴该怎么跟我们穿衣的习惯相协调?特别是裤子。它赋予那个经典的裁缝问题以不同的紧迫性:“先生习惯摆向左边还是右边?”
长臂猿的故事
在第4会合点,我们第一次遇见由两个以上物种组成的朝圣者小队。物种数目的增多会为推定它们关系带来很多问题。随着我们的朝圣继续推进,这些问题会变得越来越严重。如何解决这些问题,便是《长臂猿的故事》讨论的主题。
我们前面提到过,差不多16种长臂猿可以被分作4个系群。每个系群的染色体数目都不相同,如今各有自己的属名,分别是长臂猿属(含7个物种,其中最著名的是白掌长臂猿,学名Hylobates lar)、白眉长臂猿属(Hoolock,含2种孟加拉白眉长臂猿,在2005年被重新命名)、合趾猿属(Symphalangus,合趾猿)和黑冠长臂猿属(Nomascus,含6种“戴帽子”的长臂猿)。这篇故事将会解释如何确立这4个系群的进化关系,换句话说,如何建立它们的系统发生树。
树状家系图可以“有根”,也可以“无根”。如果我们画的是一棵有根树,这意味着我们知道祖先在哪里。这本书里的大多数树状图都是有根的。但是如果完全不清楚祖先在树状图上的位置,我们就只能画一棵无根树。无根树无所谓方向,无所谓时间,常常以星形图的形式呈现。下图给出了三个例子,穷尽了4个系群的可能关系。
树分叉处的两个分支哪个在左哪个在右其实并无区别。而且目前(本篇故事的后面部分会有所不同)分支的长度并不包含信息。分支长度不包含信息的树状图被称为分支图(cladogram)或分支树(在这个例子里则是无根分支图)。分支图传达的唯一信息便是各分支的次序,其余都是点缀。比如,如果交换图中(a)中白眉长臂猿属和长臂猿属的位置,对4个系群的关系没有任何影响。
只要我们限定所有分叉都只一分为二,即形成二歧分支(dichotomy),那么这三幅无根分支图就代表了4个物种间所有可能的关系。有根分支树也一样,按照惯例,通常都忽略三歧(trichotomy)或多歧(polytomy)分支,我们需要暂时承认我们的无知,把它们看作无法解析的情况。
一旦我们确定了无根分支图上最老的点(也就是“根”的位置),它就变成了一幅有根分支图。然而这并不总是一个容易做的决定,等我们的朝圣之旅接近尾声时,这个问题还会回来纠缠我们。不幸的是,一旦改变根的位置,各分支的顺序也会随即发生剧烈的变动。以上页图(a)部分为例,如果根被安放在黑冠长臂猿属和其他三个长臂猿系群之间,我们会得到下图左侧所示的有根分支图。如果还是同一幅无根分支图,但这次把根安放在白眉长臂猿属和其他三个系群之间,我们就得到了下图右侧的有根分支图。这两种有根分支图在长臂猿的研究者中各有拥趸。尽管在外行看来,两幅图所示的关系模式极为不同,但实际上它们的差别只在于根的位置。
如何才能找到分支图的“根”?通常的办法是把分支图进行扩展,直到它涵盖至少一个——最好不止一个——外类群(outgroup)物种,即事先普遍认为这个物种跟其他系群的关系足够远。比如在长臂猿的分支图里,猩猩或大猩猩,甚至大象或袋鼠都可以充当这个外类群。不论我们对长臂猿内部各系群的亲缘关系有多么不确定,但我们都知道任何长臂猿和类人猿或大象的共同祖先都比各种长臂猿的共同祖先更古老。因此对于一幅包含了长臂猿和类人猿的分支图来说,把根安放在这二者之间是毫无争议的。
有了这些准备,我们现在可以决定上述无根分支图当中哪个才是正确的。4个长臂猿系群的无根分支图有3种可能。如果要鉴定关系的是5个动物系群,那么我们需要考虑的备选分支图就有15种之多。如果动物系群的数目高达20种,则根本不必试图数出备选分支图的数目,因为那将是个天文数字。随着需要归类的系群数目的增加,可能的分支图的数目会急剧增长,即使是最快的计算机也要算到世界末日。不过从原理上看,我们的任务非常简单。我们只需要从所有备选里挑出最好地解释了系群间相似性和差异性的那幅分支图。
怎么才算是最好的解释?任意一组动物之间都存在无穷多的相似性和差异性,要对它们进行计数可能比你想的还要难。某个“特征”是另一个“特征”不可分割的一部分,这种情况常有发生。如果你把它们单独计数,那么你实际上是把同一个东西数了两遍。举一个极端的例子,假设有A、B、Y和Z4种千足虫(millipede),其中A和B在各方面都比较相似,唯一的区别在于A的腿是红色的,而B的腿是蓝色的。Y和Z在各方面比较相似,但跟A或B非常不同,而且Y的腿是红色的,Z的腿是蓝色的。如果把腿的颜色当作单个“特征”,我们就能正确地将A和Y归为一个系群,而把B和Z归为另一个系群。但是如果我们天真地把100条腿各算一个特征,那么这些腿的颜色会使得支持AY和BZ分组的特征数目暴增至100倍。人人都能看出来,我们错误地将同一个特征数了100遍,而它“实际上”只是一个特征,因为胚胎发育时是一个单独的“决定事件”同时决定了所有100条腿的颜色。
左右对称性也有同样的问题。胚胎学的原理决定了,除了少数例外,动物每侧身体都是另一侧的镜像。没有动物学家会在绘制分支图的时候把两侧的镜像各计一遍,但是这种非独立性(nonindependence)并不总是如此显而易见。鸽子需要高高突起的胸骨(即龙骨突)来锚定飞行肌,不会飞行的鸟比如无翼鸟(kiwi)则不需要。当我们考虑鸽子和无翼鸟的区别时,我们应该把龙骨突和翅膀算作两个独立特征吗?还是说我们应该把它们算作一个特征,因为有时候一种特征的状态会决定另一种特征,或者至少不同程度地降低另一种特征的自由度?在千足虫和左右对称性的例子里,合理的答案相当明显,但在龙骨突的例子里则不然。你会发现人们各执一端,而争辩的双方都是富于理性的人。
这些相似或不同都是可见的特征,但可见特征的进化在于它们是DNA序列的外在表现,而今天我们可以直接比较DNA序列。长链DNA还带来额外的好处,即DNA文本里有更多可供计数和比较的内容。翅膀和龙骨突多样性的问题可能会被数据的洪流淹没得无影无踪。更妙的是,自然选择对许多DNA差异视若无睹,因此给我们保留了一个“更纯净”的祖先信号。举个极端的例子,有些DNA密码是同义的,即它们编码相同的氨基酸。如果一个突变把一个DNA密码词变成了它的同义词,那么它对于自然选择来说就是不可见的,但对于遗传学家来说,它和别的突变没什么两样。同样的情况也适用于“假基因”(通常来自真基因的偶然重复)和许多其他“垃圾DNA”序列,这些序列虽然位于染色体上,但其中包含的信息从来不会被实际使用。免于自然选择的DNA片段可以自由突变,从而为分类学家们留下了有用的痕迹信息。不过,这些都不会改变基本的事实,即某些突变确实有重要的实际作用。虽然从数量上看,这些突变不过是冰山一角,但正是因为有了这些自然选择看得见的突变,才有了我们熟悉的这些美丽而复杂的生命。
DNA并不是解决一切问题的灵丹妙药。它的进化有时候会出人意料,让人一不留神就上当受骗。我们将在《丝叶狸藻的故事》里看到,我们的DNA里有超过半数来自病毒或病毒样的寄生物,它们借用我们的DNA复制机器来扩散自己的基因组。若是因为某种病毒曾经由一种生物传染给另一种生物就把这两种生物归为一个系群,那实在是误人子弟!即使是那些只在单个生物个体基因组内部进行传播的DNA,也会像千足虫的腿一样,给我们带来重复计数的问题。还有另外一种更为隐蔽的问题,来自生物体内相似的重复DNA序列,比如我们将在《七鳃鳗的故事》里遇到的多种血红蛋白基因。一条既有血红蛋白α基因也有血红蛋白β基因的祖先染色体可能会留下两类不同的后代染色体,一类丢失了α基因,另一类丢失了β基因。如果对这两个系群进行比较,我们很可能会犯这样的错误,即拿一个系群中的α基因和另一个系群的β基因相比较,这无异于拿苹果跟橘子比。正因如此,我们在不同物种之间进行比较时,必须确保我们使用的是相同的“种间同源”(orthologous)遗传序列。
还有另外一些情况,即相对疏远的生物却有大段DNA表现出谜一般的相似性。没人怀疑鸟类跟海龟、蜥蜴、蛇和鳄鱼的关系比跟哺乳动物更亲近(参见第16会合点),但鸟和哺乳动物DNA序列的相似性之高却与它们的疏远关系不相称。它们的DNA都有一些高GC含量的区域,特别是基因附近的序列。这大概来源于它们的DNA修复机制的某些共同特点。纵观整个基因组,哺乳动物和鸟类都微微倾向于在相同的DNA位点累积鸟嘌呤(G)和胞嘧啶(C)。这导致早期的遗传研究将鸟类和哺乳动物归在一处。我们现在知道这些看似多发的相似性其实并不是彼此独立的:它们都来源于同一个遗传机制的偶然改变。DNA看起来像是为生物分类学者们提供了一个乌托邦,但我们必须小心其中的危险,因为我们对基因组的理解仍然有许多不足。
假设怀着必要的小心,我们又该如何使用DNA包含的信息呢?有趣的是,文学研究者在追踪文本的源流脉络时使用的是跟进化生物学家相同的技巧。更妙的是——简直美好得令人难以置信——这方面最好的例子之一正是来自《坎特伯雷故事集》研究项目。各国的文学研究者组成了一个国际理事会,成员们使用进化生物学的工具追踪《坎特伯雷故事集》的85种不同抄本的历史。如果要重现失落的乔叟原始手稿,这些印刷术时代之前的古老手抄本是我们的最佳希望。就像DNA一样,乔叟的文本历经多次重复抄写得以保存,而那些偶然的错误也同样被保存了下来。学者们一丝不苟地对累积的差异进行评分,重建了抄录的历史,建立了版本的进化树——这确实是一个进化的过程,随着代代相传,错误也渐渐累积。研究DNA进化和文本进化所用到的技术和遇到的困难如此相似,二者之中任何一个都可以被用来类比,作为另一个的解释。
所以,让我们暂时从长臂猿转向乔叟,具体关注《坎特伯雷故事集》85个手抄版本中的4个,即大英图书馆(British Library)本、基督教堂(Christ Church)本、埃格顿(Egerton)本和汉格沃特(Hengwrt)本。《总序》的前两行是这样的:
大英图书馆本:Whan that Aprylle / wyth hys showres soote
The drowhte of Marche / hath pcede to the rote
基督教堂本:Whan that Auerell wt his shoures soote
The droght of Marche hath pced to the roote
埃格顿本:Whan that Aprille with his showres soote
The drowte of marche hath pced to the roote
汉格沃特本:Whan that Aueryll wt his shoures soote
The droghte of March / hath pced to the roote
不管研究的是DNA还是文学文本,第一件必须做的事情都是找出相似和不同的位置。因此首先要把它们对应排列起来,这件任务有时候并不容易,因为文本可能只是碎片,又或者可能颠三倒四、长度不等。如果问题确实棘手,计算机能帮很大的忙,不过我们只需要比对乔叟作品《总序》的前两行而已,倒是不必用它了。我们把这些版本的这两行里有分歧的15处地方用阴影标了出来。
既然已经列出了差异,让我们来看看哪种分支图能够最好地解释这些差异。最快捷而粗糙的办法是采用下述方法的某个变种把这些文本按照整体相似性进行归类。首先,我们找到最相似的一对文本,然后把这对文本取平均,作为单个文本继续跟剩下来的其他文本比较,再选出最相似的一对。以此类推,构建出连续嵌套的组别,直到生成一棵关系树。因为不需要来回倒腾所有可能的关系,所以这种方法很快,其中最常用的一种被称为“邻接法”(neighbour-joining)。但这些方法并没有考虑进化过程自身的逻辑,它们只单纯衡量相似性。支序系统学作为分类学的一个流派,其内在逻辑是基于进化的,不过并非该流派的每个成员都意识到了这一点,因此他们更偏爱其他办法,其中最早被发明出来的是简约法。
正如我们在《猩猩的故事》里看到的那样,“简约”指的是解释的经济性。不管是动物的进化还是手稿的进化,最简约的解释所假设的变化次数一定是最少的。如果两个文本有一个共同的特点,那么简约的解释会认为这个特点是它们从同一个早期文本那里继承得来的,而不是各自独立进化而来的。这并不是一个不可动摇的规则,但起码它比反过来的说法更正确。至少从原理上看,简约法会穷尽所有可能的分支图并选择变化次数最少的那个。
有些类型的差异对于我们衡量不同分支图的简约性是无效的。如果一个差异只存在于单个版本或单个动物物种中,那么它对于简约法来说就不包含有用信息。邻接法会用到这种差异,但简约法会完全无视它们。简约法依赖于包含有用信息的变化,即两个或多个版本共享的变化。理想的分支图会使用共享的祖先源流来解释尽可能多的有用差异。在我们的乔叟作品家系中,有9个差异不包含有用信息,因此可以被忽略。6个包含有用信息的差异在上页图中被框了出来,你可以看到,前5个差异将4份手稿很清楚地分成两组,基督教堂本和汉格沃特本是一组,大英图书馆本和埃格顿本是另一组。剩下的那个差异是个斜线符,这个文本分隔的差异将大英博物馆本和汉格沃特本归为一组,基督教堂本和埃格顿本归为另一组。最后一个差异跟其他差异发生了冲突。没有哪个分支图只用单次拷贝错误的发生和继承就能解释上述手稿的全部差异。不知在什么时候,必定有两名抄写员犯了同样的错误。
简约性告诉我们应该选择拥有最少变化的那棵分支树:它只包括一次巧合,比如两位僧侣各自独立地在同一个地方插入了一个斜线符。那棵树长这个样子:
另外两种分支图则要求在抄写过程中发生五次或者六次巧合的错误,这种可能性显然相对较低,不过并非完全不可能发生,尤其是考虑到文本的趋同和反转是比较常见的现象,我们在对乔叟文本的源流下结论时应该多加小心。一位中世纪的抄写员对于改变单词的写法也许没什么顾忌,更不必说增减一个斜线符这样的标点符号。关于版本关系的更好的指征是字词次序的改变。与之对应的遗传改变是那些“罕见基因组改变”(rare genomic changes),比如DNA大片段的插入、缺失或重复。我们可以给不同类型的变化赋予不同的权重,以此凸显上述变化的价值。如果同时有其他类型的变化,那些常见或不可靠的变化就被赋予较低的权重,而那些罕见或者已知能够可靠表征亲缘关系的变化就被赋予较高的权重。如果一个变化被赋予了较高的权重,这就意味着我们要特别小心,不要重复计数。整体权重值最低的也就是最简约的分支图。
简约法是建立进化树最常用的方法,然而如果趋同或反转的情况比较常见,就像我们这里的乔叟文本以及许多DNA序列一样,那么简约法可能会误导人。它会带来一个臭名昭著的棘手难题,被称为“长支吸引效应”(long branch attraction)。下面解释一下这是怎么回事。
分支图无论有根无根,都只反映分支的次序。系统发生图(phylogram)或系统发生树(phylogenetic tree,希腊语phylon指的是种族/部落/类别)与之类似,但其分支长度也同时传递这些信息。在典型的系统发生树里,分支长度代表进化距离:长支代表发生了许多改变,而短支代表改变次数较少。比如,我们这4个版本的《坎特伯雷故事集》片段的关系可以这么来表示:
在这幅系统发生图里,分支的长度都差别不大。但是假如其中两份手稿跟另外两份相比存在较多改变,想想会发生什么。这两份手稿所在的分支会变得非常长。版本间会有一部分变化是不局限于某个版本的,发生树上其他地方会碰巧有相同的变化,(这里是重点)特别是另一条长支上。这是因为长支本来就是大多数变化所在的地方。只要有足够的进化改变,这种巧合会掩盖真正的信号,将两条长支错误地联系在一起。基于对变化数量的简单计数,简约法会错误地将特别长的分支的末端归到一起。换言之,简约法使得长支彼此“吸引”,产生假象。
长支吸引问题尤其让生物分类学家头疼不已。只要趋同和反转常有发生,这个问题就会冒头,而且不幸的是,即便把更多文本纳入分析也不能避免这个问题,甚至文本越多,我们找到的虚假的相似性就越多,我们也就越容易相信错误的答案。不幸的是,DNA数据面对长支吸引现象尤为脆弱。主要原因在于,DNA编码中只有四种字母,既然大多数差异来自单字母变化,那么多次独立突变碰巧生成相同字母这样的巧合就极有可能发生。这简直像是布设了一片长支吸引的雷区。显然,遇到这样的情况我们就需要一种不同于简约法的新技术。这种技术被称为似然分析(likelihood analysis),在生物分类领域中日渐受到青睐。
似然分析比简约法更依赖计算机的能力,因为在这种方法里分支的长度也纳入了计算,也就是说计算时又多了许多必须满足的条件。除了所有可能的分支模式,我们还必须考虑所有可能的分支长度和突变率。只有借助巧妙的近似和聪明的捷径才有望完成这个极其艰巨的任务,而这正是计算生物学家所研究的一个热点领域。
“似然”并非一个空洞的词汇。恰恰相反,它有极其精确的含义。要这么来理解:首先猜一猜各种类型的变化发生的概率(一个字母被替换成另一个字母的概率、缺失一个字母的概率等等)。同时还要假想出一棵进化树,包括分支的长度。假装这些猜想都是正确的,然后我们可以算一算有多大的概率生成我们实际看到的DNA序列,这个概率就是我们那些猜想的“似然”概率(可能是一个非常小的数值)。如果再做一组猜测,我们会得到一个不同的“似然”值,便可以跟第一个值进行比较。以此类推,为尽可能多的猜想——尽可能多的进化树和概率值——计算出似然概率。
有多种方法可以利用似然概率为“最佳”进化树下定义。最简单的办法是认定似然值最高的那棵进化树是最好的,这种办法被称为“最大似然法”(maximum likelihood)自然不无道理,但有一棵最有可能的进化树并不意味着其他可能的进化树不可以有几乎同样的可能性。与其相信单个最有可能的进化树,我们也许应该成比例地给予所有可能的进化树相应的信任度,可能性越高的进化树拥有越高的信任度。这种办法叫作“贝叶斯系统发生学”(Bayesian phylogenetics),也是近来兴起的一项统计学运动的组成部分,即各种概率计算都改用贝叶斯途径(一个例子是互联网垃圾信息过滤器)。就进化树而言,这种途径有两方面的好处。它为每个分支点都提供了一个概率值(尽管根据经验这些数值有时候显得过于乐观)。更重要的是,在它的框架下,进化速度是可以沿着各个分支进行调整的,所以我们可以用分支的长度估量实际的进化时间而非积累的变化数量。实际上这意味着那些变化可以被用作“分子钟”,跟本书提到的许多年代在计算时所用的分子钟是同一回事,我们将在《天鹅绒虫的故事》的后记里回到这个话题。当然,就像最大似然法一样,贝叶斯分析也不可能考察所有可能的进化树,但我们有计算上的捷径可循,而且它们非常好用。
我们对最终选定的进化树是否有信心,取决于我们有多么肯定它各个分支的正确性。一种常见的做法是把我们对各个分支正确性的估计标在分叉点旁边。使用贝叶斯方法时会自动计算出概率,但使用其他方法比如简约法或最大似然法时,我们需要别的办法计算概率,其中比较常用的一种是“自助抽样法”(bootstrap method),通过对数据的不同部分重复抽样,看它跟最终的进化树有多大差别,换句话说,来判断进化树在误差面前有多稳健。自助抽样值越接近100%,分支点就越稳健,但即使是专家也发现很难解读某个具体的自助抽样值的准确含义。类似的方法还有“刀切法”(jackknife)和“衰减指数法”(decay index)。所有这些方法都是用来评估我们应该对进化树上的每个分叉点怀有多大程度的信任。
在我们离开文学话题回归生物学之前,请先看一下下页图,这是根据乔叟作品的前250行总结的24个抄本的进化关系。在这幅系统发生图中,各分支的次序和长度都是有意义的。你一眼就能看出哪些抄本彼此之间只有细微的差异,而哪些是脱轨的异类。这是一幅无根图,也就是说它无意回答24个抄本之中哪个更贴近“原本”的问题。令人满意的是,我们刚讨论过的那4个版本(名字标注在括号里)在图中的关系,跟我们先前只用前两行计算出来的结果完全相符。
“我不曾做任何增减”(By me was nothyng added ne mynusshyd,卡克斯顿版前言)。根据24种《坎特伯雷故事集》抄本的前250行绘制的无根分支图。这些抄本是《坎特伯雷故事集》项目所研究的诸多版本中的一部分,本图采用了该项目为这些抄本拟定的缩写代码。该图由简约法分析得出,自助抽样值标注在对应的分支上。正文中讨论的4种版本在图中以全称标注。
现在该回到长臂猿的话题了。多年以来,曾有许多人试图解决长臂猿的关系问题。简约法告诉我们存在4个系群的长臂猿。接下来需要根据身体特征完成一幅有根分支图。
下页图颇为可信地显示,长臂猿可以按照4个已知的属归类,其中所有黑冠长臂猿物种都归在一起(自助抽样值为100%),长臂猿属很可能也是如此(自助抽样值为80%),但其他关系大都相当模糊。尽管长臂猿属和白眉长臂猿属归在一处,但自助抽样值只有63%,在熟悉这些数据的人看来,这样的数值意味着这个关系并不可信。身体特征不足以解决各个长臂猿属之间的关系问题。
基于形态的长臂猿有根分支图。改自Geissmann[148]。
出于这个原因,研究者们越来越偏重分子遗传学。《夏娃的故事》介绍了线粒体DNA,这种只沿母系家系遗传的DNA序列常被用于遗传研究。长臂猿线粒体DNA方面的顶尖权威克里斯琴·鲁斯(Christian Roos)让我们注意到一份最近的研究,它分析了长臂猿的完整线粒体DNA序列。
研究者利用来自若干长臂猿个体以及7个外类群的序列,去掉个别无法匹配的片段之后,逐字比对(就像我们对乔叟的文本所做的那样)。然后他们使用最大似然法和贝叶斯分析构建进化树,其中后者还允许进化速度发生改变。最后将得到的线粒体DNA家系图(见下页图)末端对齐,以分支长度代表对地质时间的估计。在这幅图中,没有标注数字的分支点代表它是可靠的,即自助抽样值等于100%,贝叶斯概率约等于1.0。因此,跟上一幅基于身体特征的图比起来,这幅图的解析度更高。
基于完整的线粒体DNA序列构建的长臂猿系统发生树。自助抽样值如低于100%或贝叶斯概率低于1.0,则在图中予以标记。贝叶斯方法可以根据人类/黑猩猩(700万到600万年前)、人类/猩猩(1 400万年前)、人类/猕猴(2 900万到2 400万年前)的分歧时间来校正图中各分支点的年代,分枝点处的柱状图表示其年代估计的95%置信区间。改自Carbone et al [ 148]。
不幸的是,仍然有两个不那么确定的分支点,自由抽样值分别是87%和77%,也依然会影响到长臂猿各属。黑冠长臂猿的线粒体最先分离出去,这件事是确定无疑的。然后分离的是长臂猿属,这也有合理的支持(87%的自助抽样值)。但是把合趾猿属跟白眉长臂猿属联系起来的自助抽样值只有77%,这就低得令人失望了。考虑到这棵进化树是基于将近16 000个DNA字母构建的,这个结果也许还会让人感到吃惊。问题之一在于联系各系群的分支长度。长臂猿进化之初连续发生的数次分歧间隔时间都不长,导致没有充分的时间累积足够的进化差异。幸运的是,对于我们的朝圣来说,进化树上人类所在的这些中间分支应该不太有这样的问题。除了800万年前到600万年前的一个短分支之外,人类进化家系各分叉点之间的距离往往长达500万年甚至更久,足以积累许多有分析价值的进化差异。
进化树上的短分支固然会由于进化差异的匮乏而带来麻烦,但过长的分支也会由于进化上的改变太多而产生问题。随着DNA序列之间积累的差异越来越多,哪怕是最大似然法和贝叶斯分析这样复杂的技术也无法令人满意。当进化上的改变达到一定程度,相当比例的序列相似性其实只是巧合而已,这个比例会高到让人无法接受,换句话说,DNA的差异饱和了。再没有什么花哨的办法可以从中提取出源流信息,因为过往关系的残余已经在时间的蹂躏下被覆盖了。这个问题对于中性的DNA差异来说显得尤为严重。强自然选择会让基因规规矩矩的,在极端的例子里,一些重要的功能基因可以历经数亿年的光阴而纹丝不改。但对于一个从来不发挥任何功能的假基因来说,这样长的时间足以导致令人绝望的差异饱和。遇到这样的情况,我们就需要别的数据。最有希望的办法是利用我们前面提到的罕见基因组改变,即牵涉到DNA重排而非单字母差异的改变。这样的改变既然是罕见的,而且往往还是独一无二的,也就不太可能因为巧合造成的相似性而带来麻烦。一旦找到这样的改变,它们可以透露大量关系信息。等河马加入日渐膨胀的朝圣者团体,我们会从它那令人震惊的精彩故事里听到这方面的内容。
《长臂猿的故事》后记
《长臂猿的故事》解释了如何使用身体特征或遗传序列构建进化树。对长臂猿来说,线粒体DNA提供了一个合理的答案。但三思之后我们应该给这个故事加上一个重要的限定;也许我们应该叫它“长臂猿作为物种的衰亡史”。线粒体DNA只通过母系家系传递,所以我们知道它反映的是一棵有着严格分支的家系树。基因组的剩余部分则麻烦得多。迄今我们已经在多个故事里强调过,物种是DNA的复合体,而这些DNA来自许多个不同的来源。每个基因,实际上遗传序列里的每个字母,都有着各自的进化史。每一段DNA,以及一个物种的每一个侧面,都可以有不同的进化树,这意味着物种之间也许根本不存在什么清爽简洁的关系。我们之前接触到的ABO血型就是一个这样的例子。还有一个更明显的例子,我们对它太熟悉反而容易忽视它。如果只把男人、女人和雄性长臂猿的生殖器展示给一位来自火星的分类学家看,他会毫不犹豫地把两位雄性归为一类,认为他们的关系要近于他们跟雌性的关系。确实,决定雄性性别的基因(SRY基因)不曾存在于雌性的身体里,至少在我们跟长臂猿分道扬镳之前很久就一直是这样了。传统上形态学家会把性别特征作为特例,以避免产生“荒谬”的分类。但随着我们对基因组的了解更加深入,科学家们发现这个问题的影响远比他们原先以为的更深广。
下图是露西娅·卡蓬(Lucia Carbone)和同事们做的一幅图,展示的是长臂猿的遗传关系,数据来源不光有线粒体,还包括了整个基因组。它显然糅合了几棵不同的进化树。最常见的那棵树有15%的基因组支持,显示长臂猿属有两个物种最先分离。另一棵有13%的基因组支持,显示黑冠长臂猿属最先分离。第三组关系则有11%的基因组支持,同样把长臂猿置于最早分离的位置,但剩下的3个属的分离次序却不同。这份分析同时还选出了其他几种支持较弱的进化树,尽管它们并没有被包含在这幅图里。跟乔叟的例子不同,这些进化树之间的冲突并不是因为偶然发生的趋同现象。我们之所以这么说,是因为即使我们分析的是罕见的大片段DNA插入,也依然会暴露出不可调和的进化史分歧。
有两种效应会造成这样的问题,而在长臂猿的例子里,这二者可能都有贡献。首先是存在杂交的可能。动物园里不同属的长臂猿可以生下杂交后代,而历史上可能发生过野生物种之间的杂交,从而使不同的基因在物种之间传递。第二种很可能是我们曾在《倭黑猩猩的故事》里遇到过的“不完全谱系分选”。出现这种情况的原因是没有哪个长臂猿物种可以追溯到某一个繁殖对。长臂猿祖先的种群规模始终保持在数千或者数万。在大种群中,每个基因都不可避免地表现出某种多样性,它的家系图包含着许多以前的家系。种群越大,这些祖先家系可能持续的时间就越长。如果大型种群在较短的时间内连续多次形成新物种,不同的DNA片段可能被随机分配到不同的物种当中。
这本书,以及我们前往生命之黎明的旅程,全是基于单一进化树的概念,而这两种效应使得单一进化树是否存在都成为问题。幸运的是,地质时间的冲刷把我们从这个困境中拯救了出来。随着种群朝不同的方向进化,杂交个体出现的概率越来越低,而来自祖先的基因遗传家系就渐渐丢失(也许这一点更为重要)。所以,如果物种的形成相隔了数百万年,大多数基因都趋向于同一棵进化树。只要分支点的间隔足够远,进化树的冲突就很少发生,仅限于个别反常的情况,比如性别或血型决定基因。长臂猿也有同样的现象。尽管长臂猿进化树根部彼此纠缠,但剩下的分支较为清爽。比如,同属于长臂猿属的两个物种总是被分在一起,这也反映出了一个事实,即这两个物种的分离比它们的祖先与其他长臂猿的分离要晚上400万到500万年。
随着我们沿着时间继续回溯,我们会发现大多数会合点的间隔都长达500万年或者更久。这为我们的普遍进化树赋予了合理性。只有当连续的物种形成事件彼此间隔很近时,这一看法才会丧失根基。我们将在第9、第10和第13会合点处理这样的情形。