第二章 人工智能发展之路上的那些人与事
一、艾伦·麦席森·图灵
艾伦·麦席森·图灵是英国数学家、逻辑学家,被视为计算机科学之父、人工智能之父。图灵1912年生于伦敦,1931年进入剑桥大学国王学院,毕业后到美国普林斯顿大学攻读博士学位。图灵于1954年逝于曼彻斯特。在40多年的短暂生命里,图灵为人类做出了重大贡献。
艾伦·麦席森·图灵
1936年,图灵向伦敦权威的数学杂志投了一篇论文,题为“论数字计算在决断难题中的应用”。在这篇开创性的论文中,图灵给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)设想。“图灵机”不是一种具体的机器,而是一种思想模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。“图灵机”与“冯·诺依曼机”齐名,被永远载入计算机的发展史中。
1950年10月,图灵在哲学杂志Mind上发表论文《计算机与智能》,提出了著名的图灵测试,成为划时代之作。也正是因为这篇论文,图灵被称为“人工智能之父”。
二、冯·诺依曼
作为20世纪伟大的数学家,冯·诺依曼是以“神童”的身份为人所知的。他8岁就已经掌握微积分,高中毕业就能熟练运用7门语言。在学术生涯的黄金时期,冯·诺依曼是美国军方著名智库兰德公司的顾问,当时兰德公司内部最流行的三项挑战:第一是在“兵棋推演”游戏中击败冯·诺依曼,这是一项从没有人实现的目标;第二是出一道连冯·诺依曼都回答不了的问题,这项挑战有人做到了,就是博弈论上著名的“囚徒困境”问题;第三是观察并学习冯·诺依曼思考问题的方式,这个几乎全兰德公司的研究员都做得很好。
冯·诺依曼
冯·诺依曼是曼哈顿工程的中坚力量,他为美国军方贡献的智慧难以估量,对全人类的贡献也是堪称传奇。我们今天使用的所有计算机,几乎都是沿用“冯·诺依曼机”的基本架构。
作为最早宣称机器的计算能力必定超越人类的科学家之一,冯·诺依曼力促美国军方使用机器计算来解决“曼哈顿工程”中的海量计算问题。这篇长达101页的科学报告就是史上著名的“101页报告”(也称“EDVAC方案”),刻画出现代计算机的体系结构:“计算机的基础组成是:存储器、控制器、运算器和输入输出设备。”
和图灵发明的“炸弹”计算机刚诞生就远超人类一样,冯·诺依曼研制的史上首台存储式计算机“MANIAC”问世不久,就在一场专门为计算机和冯·诺依曼本人量身定做的“人机对抗”中,实现了机器对人类的智力碾压。“这在国防科技史上具有划时代的意义:机器战胜了五角大楼最为依赖的世界上最伟大的大脑之一。”
在冯·诺依曼未完成的遗作《计算机与人脑》中,充分展现出他20世纪最伟大数学家的深邃,书中的很多思想仍将在很长一段时间内闪耀着不朽的光辉。
知识链接:《计算机与人脑》名言摘录
◆ 这些系数还说明,天然元件(人脑)比自动机器优越,是它具有更多的、却是速度更慢的器官。而人造元件的情况却相反,它比天然元件具有较少的、但速度更快的器官。
◆ 这就是说,大型的、有效的天然自动机,以高度“并行”的线路为优势;大型、有效的人造自动机,则并行的程度要小,以采取“串行”线路为优势。
◆ 神经系统是这样一台“计算机”,它在一个相当低的准确度水平上,进行着非常复杂的工作。
所以,神经系统所运用的记数系统和我们熟知的一般的算术和数学系统根本不同。它不是一种准确的符号系统……它是另外一种记数系统,消息的意义由消息的统计性质传递,这种方法带来了较低的算术准确度,却得到了较高的逻辑准确度。也就是说,算术上的恶化换来了逻辑上的改进。
三、杰弗里·辛顿与反向传播算法
20世纪70年代,BP算法的思想就已被提出,但未引起重视。1985—1986年,大卫·鲁梅尔哈特(杰弗里·辛顿的老师,1986年和詹姆斯·麦克莱伦德共同出版了《并行分布处理:认知微结构的探索》一书)、杰弗里·辛顿、威廉姆斯等重新推广了BP算法,并成功用于训练多层感知器(MLP),解决了人工神经元异或逻辑实现问题,对人工智能的发展产生重大影响,并成为深度学习的奠基石之一。通过推导人工神经网络的计算方式,反向传播可以纠正很多深度学习模型在训练时产生的计算错误。曾有人举例:几个人站成一排,每个人依次将看到的图像描述给下一个人,最后一个人得到的信息往往完全走样。反向传播的原理就是,将图像给最后一个人看,让他对比图像和他得到的信息之间有多少误差,再将误差依次传给前面的人,让每个队友分析误差中有多少是自己的,下次描述时哪里需要改进。由此一来,准确度就能提高。这种机制极大地提高了人工神经网络的性能。因此,反向传播算法对现有人工智能影响很大,以至于《麻省科技评论》在报道中直接称:“今天的AI就是深度学习,而深度学习就是建立在反向传播机制之上的。”
然而提出反向传播算法之后,辛顿并没有迎来事业上的蓬勃发展。20世纪80年代末期,第二波人工神经网络热潮带来大量投资,然而因为1987年全球金融危机和个人计算机的发展,人工智能不再是资本关注的焦点。同时,当时的计算机硬件无法满足神经网络需要的计算量,也没有那么多可供分析的数据,辛顿的理论无法得到充分实践。20世纪90年代中期,神经网络研究被打入冷宫,辛顿的团队在难以获得赞助的情况下挣扎,辛顿被美国国防高等研究计划署(DARPA)拒绝。幸好这时,加拿大高级研究所(CIFAR)向他抛出橄榄枝,资助了辛顿的团队。
辛顿事业的再次起飞是在2012年。计算机硬件的性能大幅提高,计算资源也越来越多,他的理论终于能在实践中充分发展。他带领两个学生利用卷积神经网络(CNN)参加了名为“ImageNet大规模视觉识别挑战”的比赛,这是当时规模最大的图片分类识别比赛。截至2016年,ImageNet数据集中有上千万张手工标注的图片,是图像识别领域最重要的数据库。比赛的其中一个内容是,让机器辨认每张图像中的狗是什么类型的,从而对100多只狗进行分类。
在比赛中,辛顿带着他的学生以16%的错误率获胜——这个错误率低,甚至低于人眼识别的错误率18%,并且远低于前一年25%的获胜成绩。这让人们见识了深度学习的威力。从此,深度学习一炮而红。辛顿的一些学生也逐渐在行业内站稳脚步。和辛顿一起参加比赛的伊利亚·莎士科尔后来成为OpenAI的研究主管。OpenAI由埃隆·马斯克参与创办,研究如何让人工智能改善人类生活。辛顿的另一名学生曾任Facebook AI Research的第一任主管,还有的则担任了Uber的首席科学家。
四、维纳与反馈机制
被称为“控制论之父”的诺伯特·维纳是一名神童,20岁前即取得博士学位。他于1894年11月26日生于美国密苏里州哥伦比亚,于1964年3月18日病逝于瑞典斯德哥尔摩。他于1913年在哈佛大学获哲学博士学位;随后赴欧洲,在英国剑桥大学和德国哥丁根大学研究数理逻辑;于1915年返回美国,在缅因大学执教;于1919年到马萨诸塞州理工学院任教,于1932年升为教授,直至退休。他曾于1934—1935年到中国任清华大学客座教授。
维纳在大学时期学习过生物学与哲学,早年研究数理逻辑,后来转入应用数学领域,研究与随机过程有关的勒贝格积分、广义调和分析、复域傅里叶变换和滤波与预测理论。在第二次世界大战期间,他承担火炮自控装置的设计工作,揭示了神经系统与自控装置的共同工作机制,把飞行轨迹的信息作为随机过程加以处理,以进行预测,并应用反馈机制消除偶然因素的干扰。第二次世界大战后,他综合了控制和通信系统共有的特点,把这类系统与动物机体、神经系统、社会经济等加以类比,并从统计观点出发研究了这些自控系统的一般规律,创立了控制论,从而对战后自然科学的发展和自动化技术的发展产生了巨大影响。
1940年,维纳开始考虑计算机如何能像大脑一样工作,发现了二者的相似性。维纳认为计算机是一个进行信息处理和信息转换的系统,只要这个系统能得到数据,就应该能做几乎任何事情。他从控制论出发,特别强调反馈的作用,认为所有的智能活动都是反馈机制的结果,而反馈机制是可以用机器模拟的。维纳的理论抓住了人工智能核心——反馈,因此可以被视为人工智能“行为主义学派”的奠基人,其对人工神经网络的研究也影响深远。
五、约翰·麦卡锡与达特茅斯会议
约翰·麦卡锡(John McCarthy),于1927年生于美国马萨诸塞州波士顿市,于1948年获得加州理工学院数学学士学位,于1951年获得普林斯顿大学数学博士学位。他是首次正式提出“人工智能(Artificial Intelligence)”这一名词的人,是LISP语言的发明者,还是达特茅斯会议的发起人,1971年图灵奖得主。
约翰·麦卡锡与人工智能结缘要感谢冯·诺依曼。1948年9月,大数学家、计算机设计大师冯·诺依曼在加州理工学院主办的希克森脑行为机制研讨会上介绍了关于自复制自动机的论文。麦卡锡深受启发,认为可以将机器智能与人的智能联系起来,并计划将其作为下一步的研究内容。1949年,麦卡锡在普林斯顿大学数学系做博士论文时,有幸与冯·诺依曼一起工作。在冯·诺依曼的鼓励和支持下,麦卡锡开始研究机器模拟人工智能,主要研究方向为计算机下棋,并发明了著名的α-β搜索法,有效减少了计算量,至今仍被广泛使用。
麦卡锡博士毕业留校工作两年后,1953年到斯坦福大学任教,1955年去了位于美国新罕布什尔州汉诺威市的达特茅斯学院任教,1958年赴麻省理工学院任教,1962年又回到了斯坦福大学担任计算机科学教授。1952年,麦卡锡结识了贝尔实验室的克劳德·艾尔伍德·香农(Claude Elwood Shannon,美国数学家、信息论的创始人,香农采样定理的提出者)。他们在人工智能方面进行了深入探讨,并萌生召开一次研讨会的想法。1955年夏天,麦卡锡到IBM打工(美国教授一般发九个月工资,其余需要申请项目经费或在暑假找一些科研工作),与他在IBM的领导纳撒尼尔·罗切斯特(Nathaniel Rochester,IBM第一代通用机701的主设计师)兴趣相投,决定第二年夏天在达特茅斯学院搞一次学术研讨活动,并说服香农和哈佛大学的马文·明斯基(Marvin Minsky,人工智能与认知学专家,1969年图灵奖得主)一起申请洛克菲勒基金会的资助。麦卡锡的预算是13 500美元,洛克菲勒基金会只批了7500美元。但有资金支持总是好的。麦卡锡给这个第二年的活动起了个别出心裁的名字:“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。
1956年夏天,麦卡锡、罗切斯特、香农、明斯基、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,1975年图灵奖得主,1978年因为“有限理性说”和“决策理论”获得诺贝尔经济学奖)、奥利弗·塞弗里奇(Oliver Selfridge,机器感知之父,模式识别奠基人)等人齐聚达特茅斯学院,会议历时两个多月,研讨主题包括自动计算机(即可编程计算机)、计算机编程语言、神经网络、计算规模理论、自我改进(即机器学习)、抽象、随机性与创造性等。会上首次就“人工智能”这一术语达成一致,并确立了可行的目标和方法,这使得人工智能成为计算机科学一个独立的重要分支,获得了科学界的承认。除此之外,还有四人也参加了此次会议。他们是来自IBM的亚瑟·撒米尔(Arthur Samuel)和阿列克斯·伯恩斯坦(Alex Bernstein),他们一个研究跳棋,一个研究象棋。达特茅斯学院的教授特伦查德·摩尔(Trenchard More)和机器学习的先驱、算法概率论的创始人雷·所罗门诺夫(Ray Solomonoff)。和其他来来往往的人不同,所罗门诺夫在达特茅斯待了整整一个暑假。他受麦卡锡“反向图灵机”和乔姆斯基文法(艾弗拉姆·诺姆·乔姆斯基1956年提出的计算机形式文法表达分类谱系)的启发,发明了“归纳推理机”。
这次会议对后来人工智能的发展产生了深远影响。在此之后,人工智能的重点开始变为建立实用的能够自行解决问题的系统,并要求系统有自学能力。
六、李飞飞与图像识别
李飞飞于1976年出生于北京,在四川长大,16岁时随父母移居美国新泽西州,先后攻读普林斯顿大学物理系、加州理工学院电子工程专业,获得加州理工学院电子工程博士学位。
博士毕业后,李飞飞进入斯坦福大学人工智能实验室,选择了当时并不被看好的研究方向——计算机视觉识别领域。从2007年开始,经过两年半的艰苦努力,并利用亚马逊众包平台雇用了167个国家共计5万人,李飞飞建成了一个后来大名鼎鼎的“ImageNet”数据集,可供计算机看图训练使用。2009年时图库就包含了1500万张图片,涵盖2万多种物品。2009年,李飞飞团队发布了相关的论文和数据集。2009年年底,李飞飞在ImageNet中额外加入用算法为图像定位的任务,研究进展取得快速突破,一口气连发了5篇论文。
李飞飞觉得这根本不够,她想让更多的人知道数据集,知道图像识别的作用。于是她奔赴欧洲找到著名的图像识别大赛举办方,成功说服他们采用ImageNet。研究人员发现他们的算法在使用ImageNet数据集后,有了更好的表现效果。于是越来越多的人开始参与ImageNet大赛,当时的科技巨头谷歌、亚马逊、Facebook等公司纷纷要求比赛持续办下去。
经过ImageNet大赛,研究者们终于意识到数据和算法同等重要,它解决了人工智能发展的许多问题,也引发了人工智能井喷式的发展,曾经鲜为人知的人工智能开始进入大众的视野。而这一切的幕后推动者,正是一位年轻的华人女学者李飞飞。
李飞飞开放了ImageNet,供全世界的研究者们免费使用。她自己则继续待在实验室,将全部精力放在AI研究上。其间,她在权威计算机期刊上发表了超过100篇论文,引用量更是高达44773次。
鉴于李飞飞在AI领域取得的卓越成就,斯坦福大学在她33岁时授予她终身教授之职,她成为计算机系最年轻的教授。2015年,李飞飞入选“全球百大思想者”。2020年2月,李飞飞教授当选为美国国家工程院院士。
七、神经网络的提出
神经网络是一种机器学习算法。神经的神经元部分是计算元件,网络部分是神经元之间的连接方式。神经网络可相互传递数据,并随数据传递实现更多的含义。由于网络是相互连接的,因此可以更容易地处理更复杂的数据。
你可能已经听说过神经网络,在当今最先进的人工智能背后,是大脑激发的人工智能工具。虽然像深度学习这样的概念是比较新的,但它们背后的理论体系可以追溯到1943年的一个数学理论。
沃伦·麦卡洛和沃尔特·皮茨的《神经活动内在想法的逻辑演算》可能听起来非常普通,但它与计算机科学一样重要(甚至超过计算机科学)。其中,《PageRank引文排名》一文,催生了谷歌的诞生。在《逻辑微积分》中,麦卡洛和皮茨描述了如何让人造神经元网络实现逻辑功能。至此,AI的大门正式打开。
八、人工智能在棋类游戏领域超越人类
棋类游戏作为人类的一种智力游戏,备受人工智能开发者的青睐。人工智能的几次热潮都少不了人机对弈事件。1946年,第一台计算机发明时,人们觉得那只是一台能比人做算术题更快的机器。但是,当1962年在IBM研究机器学习的研究员亚瑟·撒米尔编写的跳棋程序战胜了一位盲人跳棋高手罗伯特·尼利,引发轰动,人们才开始认为这是人工智能。
随着技术的不断发展以及民众科学水平的提高,人们发现计算机下棋,本质上只不过是用穷举或优化搜索的方式来计算,并不是像人一样“下棋”或者具有“智能”,于是有人提出跳棋过于简单,在国际象棋等复杂到无法计算的项目上,计算机肯定是无法超越人类的。但35年之后,1997年IBM的“深蓝”计算机战胜了国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov)。于是又有人提出围棋是一项无法穷尽搜索、需要依靠人类“大局观”的智力运动,是唯一计算机无法战胜人类的棋类比赛。2016年,人类被快速发展的算法无情地嘲笑,从谷歌旗下DeepMind公司戴密斯·哈萨比斯团队开发的“阿尔法狗”(AlphaGo)与李世石对弈的4∶1,到其升级版Master与数十位人类顶尖棋手的60∶0,再到新的升级版“阿尔法元”(AlphaGo Zero)以100∶0的不败战绩击败曾书写历史的“阿尔法狗”,这也成为人工智能第三次热潮的典型事件。
九、人工智能在语言处理领域超越人类
人工智能在语言处理领域包括语音识别、机器翻译、语言理解、语音合成等,目前已取得很大进展,并得到广泛应用。例如,智能音响、文件翻译、图片文字识别、手机语音助手、人工智能销售员等。
语音识别技术最早诞生于20世纪50年代的贝尔实验室,当时是基于计算机系统开发的特定语言增强系统Audry,可识别十个英文数字单词。在20世纪80年代末,卡耐基梅隆大学李开复主导研究,推出Sphinx系统,成为第一个高性能的非特定人、大词汇量连续语音识别系统。但这些系统都未能超越人类的语言理解和处理能力。
进入21世纪,随着深度学习、卷积神经网络、长短时记忆模型、连接时序分类训练等技术发展和模型应用,人工智能在语言处理领域开始超越人类。首先,在语音识别领域,2015年,在全国人机语音通讯学术会议上,百度公司分享了在人机语音交互方面的技术成果和突破,其最新研发的语音识别技术,识别相对错误率比现有技术降低15%以上,使汉语安静环境普通话语音识别的识别率接近97%。语音识别词错率低于人类平均水平。2016年10月,微软表示其语音识别技术的英文词错率已经低至5.9%,持平人类水平。
其次,在语言理解上,人工智能也在不断取得突破。为了提高人工智能的语言处理能力,2016年斯坦福大学推出一个阅读理解问答数据集(Stanford Question Answering Dataset,SQuAD)。其中包含了10万多个来自维基百科的问答对。该数据集与其他数据集相比,有很大不同:回答不是选择题,而是问答题,或者说,不再是在几个给定的选项中找答案,而是要从整段文本中去找正确答案。这就像让人工智能做阅读理解题,而且是问答题。2018年1月3日,微软亚洲研究院开发的R-NET参加斯坦福阅读理解问答数据集机器阅读理解挑战赛,在“精准匹配”(Exact Match)这一项指标上取得82.650的好成绩,首次超越了人类水平。但随后,斯坦福自然语言处理(NLP)团队于2018年6月3日对机器阅读理解数据集进行了更新,加大了难度,升级到SQuAD 2.0版本。相较于之前的SQuAD 1.1版本中的10万个问答,SQuAD 2.0又新增了5万个由人类众包者设计的对抗性问题,而且问题在文中不一定有直接对应的答案。人工智能暂时落后于人类。但很快,从2019年开始,平安科技的玲珑心智能对话团队数次战胜谷歌、科大讯飞等强劲对手,不断刷新纪录,并超越人类。2020年3月,平安科技在“精准匹配”这一项指标上取得90.386的好成绩,超过人类86.831的水平。当然,这一数据还在不断被刷新。2021年2月的数据显示,蚂蚁服务智能团队在“精准匹配”这一项指标上获得90.871的分数。看来斯坦福NLP团队又该对数据集进行升级了。