分子流行病学和分子进化流行病学
上QQ阅读APP看书,第一时间看更新

第五节 系统树重建:贝叶斯推测法

一、贝叶斯分析的基本概念
(一)贝叶斯定理
贝叶斯定理(Bayes theorem)是由Richard Price于1763年在托马斯.贝叶斯(Thomas Bayes,1702—1761)过世后整理其笔记发表,其主要思想是基于已有的知识去推测某事件发生的不确定程度(一般用概率来表示)。贝叶斯统计主要利用贝叶斯定理进行贝叶斯推断,由该定理可以计算出基于先验知识的后验概率。贝叶斯定理的具体表述如下:
若A、B是两个随机事件,其中A是试验以前发生的事件,则有:
其中,P(A)是试验以前A事件发生的概率,也叫先验概率。P(B)为事实概率。P(B∣A)为似然函数,它是在发生了A的基础上再发生B的概率,即基于先验知识下事件B发生的概率。P(A∣B)是后验概率,它是综合了先验知识与试验结果后对事件A的相信程度。
(二)贝叶斯分析的参数估计方法
将贝叶斯推断法应用到分子进化领域,可以构建系统发生树。进化树的先验概率是未对进化树进行分析前的概率,一般假定所有可能的进化树都有相同的概率;树的似然值是在特定的进化模型和树的拓扑结构条件下从观测数据计算得到的;树的后验概率是在给定的序列数据条件下某个进化树的概率。因此后验概率最大的树为要选择的最优树。
由于后验概率的计算不仅考虑所有树的拓扑结构,还要考虑每一棵树的所有分支长度和替换模型的所有组合,其计算量非常大,所以一般采用马尔科夫链蒙特卡洛模拟(Markov chain Monte Carlo, MCMC)的方法来近似地获得后验概率。实际计算时,首先同时建立多个马尔科夫链(Markov chain),然后每隔若干代抽取一棵树,最后计算每个分支的后验概率,该方法同时给出模型参数的平均数、方差和置信区间。贝叶斯推断法不但可以构建进化树,同时也进行对进化树进行了评估。
二、贝叶斯推测法构建系统树
贝叶斯推测法构建系统树一般涉及贝叶斯方法的模型选择、先验概率的设计、马尔科夫链运行设置以及运行结果汇总四步。第一步贝叶斯方法的模型选择,它可以通过后验概率最大、贝叶斯信息标准(Bayesian information criterion, BIC)、贝叶斯因子(Bayes factor, BF)、模型平均化以及混合模型方法等5种方式进行,在贝叶斯统计框架内一般选择后验概率最大方式进行进化模型的选择。第二步是先验概率的设置,贝叶斯分析中需要设置2n-3个分枝长度的先验概率、替换模型中速率参数的先验概率以及核苷酸组成频率的先验概率等4类。一般树拓扑结构的先验概率采用离散均匀分布,在这种设置方式下,如果有6棵树,则树的先验概率均为1/3。2n-3个分枝长度的先验概率一般建议用指数分布。替换模型中速率参数的先验概率和核苷酸组成频率的先验概率一般用狄利克雷分布(Dirichlet distribution)。第三步是设置马尔科夫链,一般采用同时运行多个链的方法来搜索树分布空间。第四步是汇总结果,常用的汇总方法是构建一棵多数原则合一树,对合一树上的每个分支给出包含该分支的抽样树比例值,即后验分支概率。