贝叶斯公式的组成部分
等式右边的概率 被称为先验概率。这就是我们在看到化验结果之前可能(或应该)认为的概率。在这里,我们估算这个概率的方法,就是将自己的情况与在撒哈拉以南的非洲国家人口中统计得到的埃博拉病毒感染人数进行比较。但这只是一个粗略的估计,况且我们没有考虑在尼日利亚滞留的时间,这毫无疑问是先验置信度的决定性因素。同样重要的还有与尼日利亚当地人互动的频率,以及与感染者接触导致的暴露。要量化所有这些因素可谓难于登天。我们在这里就只取之前的粗略估计。
等式右边分子的另一项,就是在感染埃博拉病毒后化验结果为阳性的概率 |。这一项需要一些想象力。我们需要跳出现实世界,想象在某种平行世界中,我们知道自己感染了埃博拉病毒。在这个平行世界里,我们得到的化验结果为阳性的可能性是多少?这个问题的答案就是 |。
纯粹贝叶斯主义者跟我们不一样,她不仅能够设身处地想象别人想象的东西,而且事实上她整天都在这样想象!这就是著名的思想实验的艺术。这种实验事实上对于贝叶斯哲学来说必不可少。没有这些实验,我们就不可能估计像 | 这样的项,也就不可能应用贝叶斯公式。这对纯粹贝叶斯主义者来说就是非理性的。
遗憾的是,有些人往往会断然拒绝单单为了探索某个理论的后果而暂时接受它那些反直觉的前提。争论双方很多时候只愿意以自身的知识论、自身对现实的模型、自身的神学与道德观点看这个世界。如果没有共同前提的话,这样的争论就注定变成空对空。这种争论常常跳过了对类似 | 的项的计算。
这样的项被统计学家统一称为似然度。然而,在我看来这个术语不太合适,因为它很容易导致误解。实际上,我们最好记住一点:似然度其实是在给定关于这个世界的某个假说时,观察到现有数据的似然度。这跟某个假说在已知观察数据下的似然度完全不同。即使之后我有时候会接受通用的术语,但为了避免之后可能出现的混乱,我更倾向于将这些项叫作思想实验项。
最后剩下的就是等式右边的分母,也就是化验结果为阳性的概率 。这一项很麻烦,是贝叶斯公式中最大的困难。就是这一项让许多研究概率(或者人工智能)的研究者度过了许多不眠之夜。这一项又叫边缘概率或配分函数。它对我来说也是最难看清、最难理解的一项,即使它在本章的某些简化情况中显而易见。
要计算化验结果为阳性的概率 ,就要区分两种情况:因感染埃博拉病毒而化验结果为阳性,还有化验不完美导致结果为阳性。对每一种情况,我们都要将其先验概率乘以这种情况导致阳性结果的概率。换句话说,我们要用到所谓的全概率公式 2 :
2跟贝叶斯公式一样,全概率公式可以通过条件概率的定义,以及两个独立事件发生的概率就是两个事件的概率的和这个事实推出。
这样的话,配分函数 的计算需要两个思想实验,分别对应两个不同的情况,因此它的计算很困难。贝叶斯主义者应该训练自己进行这项精细的脑力体操——自己在互不兼容的现实可能性之中进行思考的能力。这大概就是贝叶斯公式如此难以应用与理解的原因。