五、归纳推理(Ⅰ):基于一个集合得到数学结论的方法
毋庸置疑,得到数学结论也依赖演绎推理,但主要是归纳推理。通过第二类性质传递的表述方式可以知道,归纳推理是按照规则进行的、前提与结论之间具有传递性的推理,因此是有逻辑的推理。大概可以做这样的划分:对于推理的前提而言,演绎推理是基于“理念”的推理,归纳推理是基于“事实”的推理;对于推理的结论而言,演绎推理是为了验证的推理,归纳推理是为了推断的推理。把这两种推理结合起来,就得到了数学推理的全部过程,这就是:通过归纳推理得到数学命题,通过演绎推理验证数学命题。因为这两种推理都具有逻辑性,这就保证了数学的严谨性。
分两节讨论归纳推理,这一节讨论第二类性质传递(Ⅰ)式表述的归纳,下一节讨论第二类性质传递(Ⅱ),即由(9)式表述的类比。从(8)式和(9)式表述的差异可以看到,归纳是基于一个集合的推断,类比是基于两个集合的推断。
归纳的基础是得到集合。在分析演绎推理(7)式时曾经强调,数学证明的关键往往在于判断中间命题,即x∈A这个命题是否成立,对于归纳推理(8)式也是如此。不同的是:对于演绎推理集合A是已知的;对于归纳推理,集合A可能是已知的,也可能是未知的。
如果集合A是未知的,推理就需要从构建集合开始。由(8)式表述形式可以知道,构建集合的过程大体是这样的:从研究对象x和性质P出发得到一个共性,通过联想形成一个类;然后比较类中事物的差异,通过消减某些元素,或者通过进一步划分得到一个集合。考虑一个几何学的例子,如果看到一个由若干个线段首尾相接形成的图形,就联想到了多边形,其中边的多少就构成了多边形这个属的属性,然后根据这个属性构建集合:把有3条边的归为一个集合,称为三角形;把有4条边的归为一个集合,称为四边形。
因此,类就是具有某种属性的事物所构成的群体。对于归纳推理,类是思维的对象,也是思维的基础,能否构建合适的类,直接影响思维的有效性。古代中国哲学非常重视分类,群经之首《周易》就是这样的一本著作:把世间的事情分为64个类,每一类通过6个爻的变化构建认识事物的模型注89。甚至可以认为:古希腊哲学强调特殊与一般之间的关系,古代中国哲学强调类与类之间的关系;进而,古希腊哲学重视演绎推理,古代中国哲学重视归纳推理注90。
类对于归纳的功效,如英国哲学家穆勒在《逻辑学体系》中谈到的那样注91:
出于研究的目的,可以把归纳定义为对发现和验证一般命题的过程。如上文所述,通过间接地判明个别事例而对那一类事例建立普遍原理,便是确切的归纳。
按照穆勒的述说,在进行归纳之前必须有思维的对象,这就是类。所谓归纳,就是由这个类中个别事物满足的性质推断这个类中所有事物都满足这个性质。现在,假定已经确立了一个类,或者更确切地说已经确立了一个集合,下面将基于集合讨论归纳的思维逻辑。
因为归纳是从个别情况推断一般情况,因此得到的结论是或然成立的。不仅如此,就归纳推理得到的命题结论本身还需要划分两种情况:第一种情况,虽然命题成立与否是或然的,但命题结论的述说本身是肯定的,比如哥德巴赫猜想,命题结论“一个大的偶数可以表示为两个素数之和”是肯定的,称这样的情况为“结论可能是必然的归纳”;第二种情况,不仅命题成立与否是或然的,命题结论的述说本身也是或然的,比如天气预报,命题结论“今天下雨的概率80%”是或然的,因为概率是对事件发生可能性大小的度量,称这样的情况为“结论已知是或然的归纳”。分别讨论这两种情况。
结论可能是必然的归纳。数学家、特别是研究纯粹数学的数学家更关心这样的归纳推理。前面引用了波利亚归纳的述说,那些述说显然是受到了瑞士数学家欧拉的影响,因为波利亚在《数学与猜想》这本书的开篇就大段地引用了欧拉的有关述说,摘录其中一部分:
今天人们知道的数学的性质,几乎都是由观察发现的,早在严格论证其真实性之前就被发现了。甚至到现在,还有许多关于数的性质是我们熟悉而不能证明的,只是通过观察使我们知道这些性质人类知识就是通常所说的用归纳获得的。然而,我们已经看到过单纯的归纳曾导致的错误,因此,我们不要轻易地把观察所发现的和仅以归纳为旁证的关于数的一些性质信以为真。我们应当把这样的发现当作一种机会,然后精确地研究那些发现,证明或者推翻,在这两种情况中我们都会学到一些有用的东西。
欧拉的这段话说得非常有道理,事实上,归纳确实更多地用在关于数或者代数的推理,在下一节将会讨论,类比则更多地用在图形或者几何的推理。众所周知,数论中几乎所有的命题都是通过归纳得到的,其中最为典型的例子就是哥德巴赫猜想。那么,归纳的思维模式是怎样的呢?
为了与演绎推理的思维模型进行比较,把前面曾经论及的、亚里士多德论述三段论的经典语句改为归纳的推理模式:
苏格拉底是人,苏格拉底有死。柏拉图是人,柏拉图有死。亚里士多德是人,亚里士多德有死。
因此,凡人都有死。
仔细比较上面的推理和亚里士多德原来的推理,大家会恍然大悟,上面的推理模式比亚里士多德原来的推理模式更为自然。事实也是如此,现有的资料表明,除了地中海沿岸的古希腊文明之外,无论是尼罗河流域的古埃及文明、两河流域的古巴比伦文明、印度河流域的古印度文明、还是黄河长江流域的古代中国文明,都没有孕育出演绎推理的思维模式。虽然归纳的推理形式更为自然,但是,这样推理得到的结论却不一定是正确的,比如:
苏格拉底不到80岁有死。柏拉图不到80岁有死。亚里士多德是不到80岁有死。
因此,凡人不到80岁都有死。
这个结论就不正确。通过(8)式的表述可以知道,如果验证集合A中的元素越多,那么得到的结论就越可靠。比如,虽然哥德巴赫猜想还没有最后证明,但人们利用计算机验证的偶数越来越大,所有结果均表明结论是正确的,因此人们对猜想正确的信心越来越足。
前面曾经讨论数学归纳法的正确性,但更重要的问题是如何得到基于“序”的命题序列,这就需要借助归纳的推理方法。作为一个实例,讨论如何通过归纳得到自然数平方、立方前n项和公式。用A(n)、B(n)、C(n)分别表示自然数、自然数平方、自然数立方的前n项和公式。假如已经知道自然数前n项的公式
A(n)=n(n+1)/2
把这个公式作为出发点,尝试推出其他两个公式。首先,从较小的n出发进行数值计算,从中摸索出规律性的东西,然后用数学语言或者符号表达规律,最后得到基于“序”的命题序列。令n从1到6:
由上面的数值计算容易看到:对于每一个n,C(n)恰好为A(n)的平方;于是可以推测:
C(n)=[A(n)]2=n2(n+1)2/4
上面的公式也说明了C(n)与A(n)的比值为A(n),受这个比值的启发,为了得到B(n)的公式,可以数值计算B(n)与A(n)的比值:
由数值计算结果可以推测:B(n)/A(n)=(2n+1)/3;于是就可以得到公式:
B(n)=n(n+1)(2n+1)/6
这样,就通过归纳得到了自然数平方、立方的前n项和的计算公式。当然,这种通过经验得到的公式还只是一种推测,公式的最终确立还是需要演绎证明。
上面的实例说明,通过归纳“看出”结论比通过演绎“证明”结论还要困难,这样的推理需要更多的想象力,当然,这样的推理也更为重要,因为这是创新所需要的。
结论已知是或然的归纳。在日常生活和生产实践中,大量的事物往往是不确定的:或者发生、或者不发生;或者以这样的程度发生、或者以那样的程度发生。因此,这类事物结果本身是或然的,而不是必然性的。这里依然基于(8)式所表述的归纳的推理模式对这样的问题进行推断。
推断的思维方式与传统数学不同:虽然不知道某一个特定的结果是否必然发生,但可以估计结果发生可能性的大小;虽然不能确定事物之间的必然关系,但可以推断事物之率很小;反之,如果某地正在发生骚乱或者战争,人们就不会去那个地方旅游,因为相信被伤害的概率较大。因此,对于这样一类问题,关键并不在于某个结果是否会发生而在于这个结果发生的概率。那么,对于随机问题如何进行有逻辑的推理呢?
仍然用A表示集合、x表示集合中的元素,用P表示一个性质或者一个结果,从(8)式出发构建下面的推理准则。
随机选取x1∈A,验证x1→P或者x1~P;
随机选取x2∈A,验证x2→P或者x2~P;
……
随机选取xn∈A,验证xn→P或者xn~P。
如果有m个元素x→P,推断
任意a∈A,a→P的可能性的大小为m/n。(10)
凭借直觉,可以认为上述的推断方法是可行的。上述推断过程是(8)式的简单变形,因此这样的推断,或者说这样的推理是有逻辑的。称这样的推断为统计推断,称比值m/n为频率,可以用频率估计概率。那么,这样的估计合理吗?为了说明估计的合理性,除却前面曾经强调的数学推理的3个基本原则之外,统计推断还需要遵循下面两个基本原则。
独立同分布原则。虽然一个随机事件发生的概率发生是未知的,但这个随机事件发生的概率本身是不变的,因此,只要有足够的信息就可以估计这个概率,获取信息的方法就是在给定的集合中随机抽取样本。
随机抽样是指每次抽取样本是独立进行的,比如,对有限集合抽样必须是有放回的。如果把随机变量的取值规律称为概率分布(简称分布)的话,随机抽样就是为了保证每次得到的样本对分布提供的信息都是一样的,也就是说,无论每次抽样得到的数据是什么都要等同对待。这就是独立同分布原则:每个样本是独立的,分布是相同的。
作为说明,分析误差模型。设μ为真值,x为观测值,ε为误差。误差模型为x=μ+ε,因为其中有两个量未知,无法推断真值,因此需要抽样。假如抽取了n个样本,得到
x1=μ+ε1,...,xn=μ+εn,
x1+...+xn=nμ+ε1+...+εn
可以看到,样本均值有着深刻的统计内涵。事实上,样本均值也有非常好的统计性质,高斯利用随机误差模型,从样本均值出发推导出随机误差的取值规律,这就是著名的正态分布注92。
最大似然原则。如果得到了独立同分布的样本,应当如何对样本取值规律进行估计呢?在一般情况下,根据数据产生的背景可以事先假设数据的取值规律,即假设随机变量的分布。分布必然包含未知参数,统计学的任务之一就是对未知参数进行估计注93,也就是通过样本推断未知参数。虽然推断的方法可以是多样的,但二百多年统计学的发展表明,最大似然的原则是行之有效的,基于这的原则得到的参数估计称为最大似然估计。
用f(x;θ)表示随机变量分布的密度函数,其中θ表示参数。如果进行了n次抽样,那么根据独立同分布原则,乘积的概率等于概率的乘积,可以得到样本的联合分布密度函数的对数形式
通常称为似然函数,其中xk是得到的样本。最大似然原则就是得到这样的估计,使得
下面,通过(10)式直观分析最大似然原则。构建一个最为简单的随机模型,一个随机变量X可能会有两个结果:发生,表示为1;不发生,表示为0。假设发生的概率为p,是未知参数。随机抽取n个样本xk,k=1,2,...,n,这些样本可能取1,也可能取0。令y=x1+...+xn,则y是取值于0与n之间的自然数。如果y=m,则意味在n次试验中随机事件发生的比例为m/n。通过对(11)式的计算可以知道,在上述模型下,m/n正是参数p的最大似然估计注94。