1.1.3 抽象能力
人类有定义抽象概念(abstract concept)的能力,连同语言能力一起将人类的祖先智人推为万灵之首。一旦某个概念形成共识,它便在语言中有相对明确的定义和一个对应的词语。毫不夸张地讲,产生概念的过程就是丰富语言、构筑文明的过程。智人可能发现了概念和语言对协同狩猎、躲避危险、认知世界的好处,于是刻意地发展和加强这些能力。
长尾猴在看到豹子、老鹰、蛇时,会发出特定的叫声,而同伴则会采取不同的躲避动作。黑猩猩能用声音、表情、肢体语言交流,可能比我们以前了解到的更为复杂。目前,科学界对黑猩猩的语言能力尚无明确的结论。
图1.106 黑猩猩与人类的基因相似度高达98.8%,600万年前和人类有着共同的祖先,是人类最近的灵长类“亲戚”。黑猩猩的智商很高,会制造一些简单的工具
智人最早产生的概念应是具象的实物,对应的词汇都是名词类的,如狮子、羚羊、长毛象等。智人的高明之处在于能够将实物组合成想象之物,从而产生现实世界里本不存在的实物的概念,如斯芬克斯(一种狮身人面的怪物)等。
图1.107 在古埃及神话中,有人面狮身、羊头狮身、鹰头狮身的怪物
最难得的是,智人产生了描述过程的抽象概念,对应的词汇是动词类的,例如驱赶、包围等。只有具备了这种高级的描述能力,如何制造和使用火(30万年前)、如何狩猎等经验才有可能成为不断传递的知识。这些当时最先进的技术彻底地改变了智人的命运,也导致了环境的恶化和很多动植物的消亡[24]。
图1.108 智人掌握了火的控制、金属冶炼、长矛制作、农业种植等高科技,一下子变得与众不同,他们是知识改变命运的第一批受益者
图1.109 全能数学家外尔
1951年,德国数学家、物理学家、哲学家赫尔曼·外尔(Hermann Weyl, 1885—1955)在论文《半个世纪的数学》中是这样评价数学概念的必然性的:“没有前几代人直到古希腊发现和发展的概念、方法和结果,人们就无法理解过去五十年数学的目标或成就。……数学思维的建构同时是自由的和必然的。每个数学家都可以随心所欲地定义自己的概念和建立自己的公理。但问题是,他是否会让他的数学家同伴对他想象力的构造物感兴趣。我们不禁感到,通过数学界的共同努力而形成的某些数学结构具有必然性的印记,而不受其历史诞生的偶然性的影响。每一个看到现代代数奇观的人都会被自由与必然的互补性所震撼。”[25]
巧妇难为无米之炊,外尔曾说,“在归纳、形式化和公理化之前,必须先有数学上的内容”。以自然数为例,由它出发衍生出一系列的概念,有的甚至是革命性的飞跃。千万不要小看每一次的进步,人类历时万年之久才对无穷有了一个清晰的认知,这是了不起的成就。
数的概念
很多动物能区分多与少,但除了人类,它们无一发展出计数的能力。经过训练“学会”数数的黑猩猩,并不知道把这个能力传递给后代,说明黑猩猩并没有自发性地理解“数”的概念,更没有将之提炼为知识。
图1.110 黑猩猩能“学会”识别阿拉伯数字,甚至做简单的加法。但无证据表明黑猩猩真正理解自然数的含义,所谓“学会”可能仅仅是死记硬背的结果
在“数”的概念被抽象出来之前,人们早就理解如果两个集合之间存在着一一对应关系,即意味着它们所含的元素“一样多”,甚至不用计较具体的数目。
图1.111 鸡和羊一样多。一一对应关系是比自然数更基本的概念
从人类早期的手指、结绳计数、算筹(公元前5世纪,中国就出现了制作精细的算筹)到沿用至今的幼儿珠算教育(见图1.112和图1.113),我们学习算术的起点依然是“一一对应”。这个过程要求学习者跳出具象,仅仅通过简单的“配对”行为来比较两个集合的规模。和三只鸡“一样多”的所有集合,它们都具备一个共同的数量属性,这便是自然数3的由来。为了表示这个概念,人类创造出符号“3”“III”等,以及单词three、trois等。人们常用阿拉伯数字、罗马数字、词语(例如中文里的“一”“壹”“弌”的含义都是1)来表示自然数。事实上,计数能力折射出从具体认知到抽象概念的飞跃并非易事,只有人类完成了这样的跨越。
图1.112 儿童要经过一些训练才能理解自然数,手指是最原始的计算器
人类抽象出“数”的概念,并把它们固化到语言文字之中。如今,学前教育已涉及“数”的文字和符号,数数几乎成为人类的基本能力。
图1.113 (左图)人类的语言文字中有多种方式来表示自然数。(右图)算盘这一计算工具由算筹演化而来,自宋元时期开始流行,至今仍在使用
很多数学概念在自然界有类似之物,如点、直线、平面等几何对象。然而,无穷集合在自然界是不存在的,也没有对应之物。但人们在谈论自然数集合N时,仿佛它是如此真实地存在,就像亲眼所见一样毋庸置疑。偶数集合是自然数集合N的真子集,然而二者之间存在着一一对应,所以偶数和自然数“一样多”。
该结果多多少少令人感到些许意外,部分和整体之间似乎不应该有一一对应的关系,这个经验来自人们熟知的有限集合。尽管如此,逻辑上它是正确的,这是“无限”和“有限”之间的一个关键差异。人们给“和自然数一样多的无穷”一个名字——可数无穷,其元素个数(即基数或势)称作阿列夫零,记作ℵ0。例如,有理数集合Q是可数的,它总可以按照下面的方式排序,其中重复的元素被删除。
在数轴上,除有理数之外,还有一些无法表示为有理数的点。例如,找不到有理数使得
证明 如果p2=2q2,意味着p是偶数。不妨设p=2r,则q2=2r2,意味着q也是偶数。与p,q互素的假设矛盾!
可以想象,当古希腊毕达哥拉斯学派的数学家希帕索斯(Hippasus, 前530—前450)首次发现这个事实的时候,他该是多么地惊愕——这与该学派笃信有理数的教义相悖。希帕索斯因为泄露了“天机”而死于同门之手,然而真理是无法被扼杀的,人类对数系的认知终于提高到了实数域R。
无穷的概念
对实数的严格定义,直到1872年才由德国数学家理查德·戴德金(Richard Dedekind, 1831—1916)给出。从希帕索斯发现无理数到实数概念的严格化经历了两千多年,可见一个概念的形成往往不是一蹴而就的。
图1.114 “戴德金分割”是实数的数学定义,远远滞后于人类的直觉
类似“一样多”,“不少于”和“多于”的概念也可由一一对应来定义。
如果集合A和B的一部分有着一一对应关系,则称B的元素不少于A或者A的元素不多于B,记作|B|≧|A|或者|A|≦|B|。
如果|B|≧|A|,并且二者之间不存在一一对应,则称B的元素多于A或者A的元素少于B,记作|B|>|A|或者|A|<|B|。
找到可能的映射关系和验证它是两件事情,前者靠直觉想象,后者靠逻辑推理。例如,有理数和无理数之间是否存在一一对应?当现代集合论的奠基人、德国数学家格奥尔格·康托尔(Georg Cantor, 1845—1918)利用对角论证法证明实数不可数,进而说明无理数比有理数多、无理数和实数一样多的时候,对传统数学和哲学的冲击,令很多人一时间接受不了,德国数学家利奥波德·克罗内克(Leopold Kronecker,1823—1891)便是其中之一。克罗内克终生强烈反对康托尔的集合论和实无穷(actual infinity),他有句名言,“上帝创造了整数,其余都是人的工作”,深深地影响了数学中的构造主义(constructivism)思想。不过,数学伟人大卫·希尔伯特(David Hilbert,1862—1943)却针锋相对地力挺康托尔,“没人能够把我们从康托尔建造的乐园中赶出去”。如他所愿,集合论现已成为数学的基本语言。
图1.115 康托尔证明闭区间[0,1]上的实数不可数的对角论证法:假设[0,1]上的实数可数,则可依次排序x1,x2,···。构造小数y=0.y11y22y33···,其中yii=xii+1 mod 10。显然,y并不在这个序列之中,与原假设矛盾。因此,[0,1]上的实数比自然数多
20世纪初,产生了一些以不同哲学为基础的集合论公理体系(16)[26]。如今,在人们的理念中,像实数集合R这样的实无穷,跟它们的邻居一样真实地存在着。
定义1.2 若一个实数x∈R是某个次数有限的整系数代数方程的根,则称x是代数数(algebraic number),否则称x是超越数(transcendental number)。例如,的根,而圆周率π不是任何次数有限的整系数代数方程的根。
显然,代数数包含所有有理数和一部分无理数。因为全体次数有限的整系数代数方程是可数的,康托尔在论文《有关所有实代数数类的一个性质》(1874)中略施小计便证得代数数是可数的,而超越数和实数一样多,即超越数多于代数数。康托尔的这个结果也震惊了当时的数学界,要知道,德国数学家费迪南德·冯·林德曼(Ferdinand von Lindemann, 1852—1939)于1882年费尽心思才证得π是超越数。那时,人们对超越数的存在性知之甚少,“胆大妄为”的康托尔连一个超越数都没构造就说它们比比皆是,怎能不引起地震。
例1.24 康托尔证明了,集合A的幂集合(power set)(17)的势一定大于A的势,即
也就是说,无穷集合的势有“等级”之分。显然,
与实数一样多的无穷被称为“连续统”(continuum),它的势记作c。利用下图所示的映射,不难看出单位闭区间I=[0,1]上的实数与整个实轴上的实数一样多。
图1.116 把闭区间[0,1]弯成半圆,它与实数域之间存在着一一对应,如图所示。其中,端点A,B分别映为−∞,+∞
1878年,康托尔好奇地问:在和之间是否还有其他等级?他认为不存在一个集合,它的元素多于自然数N而少于实数R。即,不存在集合S使得
这就是著名的猜想——连续统假设(continuum hypothesis, CH),康托尔终其一生也没能解决它。1900年,德国数学家大卫·希尔伯特(David Hilbert, 1862—1943)在巴黎第二届国际数学家大会上提出了23个问题,把连续统假设列为第一个难题。多年以后,两位数学家证明了ZFC公理体系既不能推导出连续统假设是对的,也不能推导出它是错的。
1940年,伟大的逻辑学家库尔特·哥德尔(Kurt Gödel, 1906—1978)证明了连续统假设与ZFC的相对协调性,即ZFC无法证明连续统假设是错的。
1963年,美国数学家、菲尔兹奖得主(1966年)保罗·寇恩(Paul Cohen, 1934—2007)证明了ZFC无法推导出连续统假设。
图1.117 基于哥德尔(左)和寇恩(右)的工作,连续统假设被证明独立于ZFC公理体系。人类对无穷的认知又上了一个新台阶
以上通过对“一样多”“不少于”“多于”等关系的严格定义,推导出一些结论,从而产生出一些分类,例如“和自然数一样多的无穷”。为了方便使用此概念,有必要明确其语义并赋予一个术语,这便是“可数无穷”概念的由来。
概念改变世界
通常,概念的形成也要依靠归纳、类比、想象,而非仅仅依靠逻辑思维。例如,
一些对象总带着相同的“语义标签”(semantic label),如果要经常谈论到这些对象,那么它们就需要一个概念来固化其含义。使用这个概念的人越多,它就越容易被写入《辞海》《百科全书》等。
一些数学分支从若干公理出发,不断地产生出新的概念。这些新的概念并不是显式地存在于公理体系之中,而要靠推演和应用的价值来决定它们是否值得构建。譬如,代数学中“群”的概念,是从大量代数系统的共性中精炼出来的。再如,法国数学家昂利·勒贝格(Henri Lebesgue, 1875—1941)于1902年发表了名垂青史的论文《积分、长度和面积》,严格地定义了“长度”和“面积”的概念。所定义的勒贝格测度和勒贝格积分如今已成为实变函数论研究的核心内容,同时也是概率论(probability theory)的严格数学基础。
图1.118 如果没有勒贝格开创的测度论,我们就无法精确理解长度、面积、体积。如果没有分形维数,我们对几何维度的认知就只能局限在直觉,就无法理解希尔伯特曲线竟然能填满单位正方形
人类对“维数”这一概念的认知,也经历了从实例到抽象的摸索过程。
——1891年,德国数学家大卫·希尔伯特提出了一种用分形(fractal)曲线填满正方形的方法。该分形曲线被称为“希尔伯特曲线”,其长度是无穷,分形维数(也称作豪斯多夫维数(18))是2。
——1915年,波兰数学家瓦茨瓦夫·谢尔宾斯基(Wacław Sierpiński, 1882—1969)提出一种分形,称作“谢尔宾斯基三角形”。给定一个等边三角形,从中抠除一个小的等边三角形;在剩下的三角形中,继续重复抠除的动作……。每次结果的面积都是上个结果的3/4,所以谢尔宾斯基三角形的面积为零。另外,它的分形维数是log23≈1.585。
图1.119 谢尔宾斯基和以他名字命名的谢尔宾斯基三角形
1907—1915年,爱因斯坦从弯曲空间(19)的概念出发思考广义相对论(general relativity),它的数学基础就是伟大的德国数学家伯恩哈德·黎曼(Bernhard Riemann, 1826—1866)于1854年创立的一种非欧几何学——黎曼几何(Riemannian geometry)。可以说,黎曼几何和广义相对论相互成就了对方的价值。在数学和物理学中,类似的例子还有纤维丛理论与规范场论等。今天的数学家几乎都不懂物理,数学的价值要在物理学中体现出来,还得靠物理学家来甄别。
图1.120 广义相对论认为,在引力场中空间是弯曲的。因此,局部两点间的最短路径不再是直线段,而是曲线,称为“测地线”
可以说,离开了产生概念的抽象能力,人类不可能稳扎稳打地加深对自然和自身的认知,也就无法创造文明。概念在头脑中被构建,经过共识、实践的反复锤炼,一经固化便成为知识网络中的一部分。还有一些概念很难用形式化的手段讲清楚,有时甚至只可意会不可言传,特别是艺术类、人文类知识。
图1.121 艺术中的很多概念都是模糊的,难以用数学来精确描述
现有的AI并不具备自主产生概念的能力,只会在一个静态的知识库上做匹配搜索和简单推理。人工智能中的原子论者(atomist)试图定义知识的最小颗粒,然后从它们出发构建整个知识的体系。这个思路的瓶颈在于知识的组织结构仍是一个未解之谜。目前,知识表示具有多样性,缺乏统一的框架,基本都是面向具体应用而设计的。例如,符号计算、智能搜索、推荐系统等有着不同的知识表示和推理规则。
产生概念是人类的基本能力
没有生物学上的证据表明,人类在产生概念的能力上有任何差异。不论男女、肤色、地域,人类表现出同样的构建概念的能力。国家的先进和落后只是归于某些略带有偶然性的历史和社会的原因,并不代表哪个种族更优秀。
每个人的第一位老师是他/她的母亲,对其一生的影响几乎是任何人无法替换的。很多人认为女性在理性思维,尤其像数学这样偏逻辑的学问上是弱势群体。这是一种误解,有关女性社会分工的一些毫无根据的暗示,让女性对自己的能力也产生了怀疑。至今,脑神经科学家都没有发现任何女性不擅长数学的迹象。
图1.122 18—19世纪,欧洲历史上的一些著名的女数学家:夏特莱侯爵夫人、阿涅西、达什科娃、热尔曼、柯瓦列夫斯卡娅
擅长理性思维与否是个体的问题。例如,在女性社会地位低下的18、19世纪,法国数学家、物理学家、哲学家夏特莱侯爵夫人(Émilie du Châtelet, 1706—1749),意大利数学家、哲学家玛丽亚·加埃塔纳·阿涅西(Maria Gaetana Agnesi,1718—1799),创立并领导俄罗斯科学院的俄国数学家沃隆佐瓦·达什科娃(Vorontsova Dashkova,1743—1810),法国数学家索菲·热尔曼(Sophie Germain,1776—1831),以及俄国数学家索菲娅·柯瓦列夫斯卡娅(Sofya Kovalevskaya,1850—1891),已经令几乎所有的男性汗颜。
图1.123 伟大的德国女数学家埃米·诺特
德国数学家、抽象代数(abstract algebra)之母埃米·诺特(Emmy Noether, 1882—1935)在哥廷根大学当数学讲师遭到了一些哲学教授的阻挠,大卫·希尔伯特回击道,“我并不觉得性别是一个阻止候选人成为讲师的理据。我们毕竟是一所大学,不是个澡堂”。
诺特不仅是一位伟大的数学家,在物理学中,她发现了对称性和守恒定律之间的美妙关系。这些成就让阿尔伯特·爱因斯坦(Albert Einstein, 1879—1955)、赫尔曼·外尔、诺伯特·维纳(Norbert Wiener,1894—1964)等大科学家对她敬爱有加,每一个固守性别歧视的男性都应该为其狭隘感到羞愧。
女性并非如传统观念认为的那样不擅长抽象思维和领导权谋,她们只是长期被歧视和定位束缚,才华得不到发展。科技越发达,对体力的要求越低,女性越有平等的机会,甚至更具优势。她们在创新上的表现(如提出新的概念),随着AI时代的到来,将丝毫不逊色于男性(详见6.2.2节)。
概念产生的机制
大家耳熟能详的数据、算力、算法、场景是机器学习和人工智能里备受关注的四个方面。必须知道,数据里只有经验,计算上的孔武之力也只是智能的一小部分,更多的是基于规则的理性创造力——人们从经验中提取带有规律性的模式,并将之概念化。这样的情形在数学和科学里俯拾皆是,举例说明:两个函数f(x),g(x)的卷积(convolution)f∗g的定义如下,
这个积分运算看上去怪怪的,其实,凡是符合叠加原理的线性系统,输出皆可表示为输入信号与系统函数的卷积。例如,回声可以用源声与一个反映各种反射效应的函数的卷积表示。卷积运算(1.1)是这一类线性系统所固有的,于是“卷积”这个概念就自然而然地产生了。
数学是由一些关键概念驱动的,数学哲学(philosophy of mathematics)研究这些概念的哲学意义,但对它们产生的机制却几乎一无所知。再加上很多经验难以形式地表达,我们目前没法教会机器主动产生像“卷积”这样的抽象概念。
图1.124 现有的人工智能对概念及其产生机制知之甚少,大多数计算机科学家和数学家似乎被数值方法的魔笛之声吸引,忘记了规则方法也曾带来的激动人心的成就
难以描述的概念
人脸表情的喜怒哀乐,人类一眼便知,但很难用形式化的方法来刻画。类似的情况在人类的感知中随处可见,当观察数据的类别很难用数学来定义时,如何让机器对它们进行分类呢?
图1.125 一位日本女性的面部七种表情(按列依次是愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶),每种表情三个样本,共有n=21个样本
数据来源:日本女性面部表情(JAFFE)开放数据库
科学家曾考察眉毛、眼睛、鼻子、嘴巴的形态与表情的关系,但效果并不尽人意。绕开特征工程(feature engineering),深度神经网络、高斯过程分类器等的人脸表情识别(facial expression recognition,FER)已达到实用精度。人脸定位、表情识别在数码相机、智能看护等领域已经取得了成功的应用。所以,我们不必强求机器也遵照人类的认知模式。机器可以按照自己的方式理解概念,只要满足一定的可解释性即可。
图1.126 平均表情和用三角剖分表示的人脸几何特征。机器识别人脸表情靠的就是这些特征或者特征差异
一个性能良好的分类器(classifier)若对某些模式总有精确的识别,则不妨认为它以一种人类尚不熟悉的方式“理解”了这些模式所代表的概念。不同的分类器可能取得相近或相远的效果,即便它们之间没有太多的共性,也并不妨碍利用它们进行协同决策,进一步提升机器感知的精度和稳健性。总之,我们可以适当地以实用主义的态度看待人工智能,同时不放弃深究它的本质。
图1.127 2018年,加拿大计算机科学家杰弗里·辛顿(Geoffrey Hinton, 1947— )、约书亚·本吉奥(Yoshua Bengio,1964— )、美籍法国裔计算机科学家杨立昆(Yann LeCun 1960— )因为对深度学习的贡献获得了图灵奖
同时,也有不少学者质疑深度学习的可解释性而把它比喻成“炼金术”,不喜欢把调参数变成一件诡异且依靠运气的事情,让试验效果不具备可重复性。尽管如此,学术界依然公认深度神经网络具有以下优点。
丰富的特征表达能力:将特征工程与模型学习有机结合了起来,虽然对人而言这些特征提取缺乏一定的可解释性。
强悍的拟合记忆能力:如此之多的参数保证了各种模式都能被死记硬背下来。
真实的问题解决能力:在图像分析、自然语言处理等领域取得了很多骄人的战绩,令很多深度学习的反对者噤声。
在一些感知类的问题上,表现最好的机器学习模型是人工神经网络,甚至超越了人类。例如,手写数字识别目前最佳成绩是卷积神经网络取得的。
图1.128 MNIST 手写数字数据集包含6万训练数据、1万测试数据。目前最好的分类器是卷积神经网络,错误率只有0.21%
图像的语义分割(简称图像分割)就是对图片中的每个像素做分类,例如,图1.129中的像素被分为“自行车”“车手”和“背景”三个类别。
图1.129 图像分割为不同的区域,每个区域有着特定的语义
深度学习在语义分割(semantic segmentation)、分类与定位、多个物体识别、实例分割等图像分析中都表现得出类拔萃,所以很多具体的应用(如医学图像诊断、自动驾驶等)常采用深度神经网络模型。
图1.130 基于深度学习的图像语义分割、物体识别的示例
图片来源:斯坦福大学课程CS231n 2017讲义
总而言之,对机器如何“理解”概念,宜采取宽容的态度,不必苛求一定以人类的习惯为标尺。人类只是凑巧成为自然之选,还有很好潜质的生灵没有这等运气,并不能说明人类的一切都是最好的。睥睨天下的人类,是时候学会面对自然有一颗谦卑敬畏之心了。