深度学习革命
上QQ阅读APP看书,第一时间看更新

01 感知机:最早的神经网络之一

海军设计的会思考的科学怪物。

1958年7月7日,在位于美国白宫以西大约15个街区的华盛顿特区的美国国家气象局里,有几个人聚集在办公室里的一台机器旁。1这台机器和冰箱一样长,宽度翻番,高度差不多,它只是一台大型计算机的一部分,这台计算机像一套多件家具一样散布在整个房间里。机器被包裹在银色的塑料中,上面反射着光线,面板上有一排排的圆形小灯泡、红色方形按钮和粗大的塑料开关,开关有白色的,也有灰色的。在正常情况下,这台价值200万美元的机器承担着美国国家气象局前身的计算工作。但在这一天,它被租借给了美国海军和一位名叫弗兰克·罗森布拉特(Frank Rosenblatt)的29岁康奈尔大学教授。

在一名报社记者的注视下,罗森布拉特和他的海军小队将两张白色卡片输入机器,其中一张在左边标记了一个小方块,另一张标记在右边。最初,机器无法区分它们,但在读取了另外50张卡片后,情况发生了变化。几乎每一次,机器都能正确识别出卡片上标记的位置,即左边或右边。罗森布拉特解释说,这台机器自己学会了这项技能,得益于一个模仿人脑的数学系统,他称之为感知机(Perceptron)。他说,未来这个系统将学会识别印刷的字母、手写的单词、口述的命令,甚至人脸,最终喊出人的名字,它还可以将一种语言翻译成另一种语言。2他补充说,理论上,它可以在流水线上克隆自己,探索遥远的星球,并从计算领域穿越到感知领域。

第二天早上,《纽约时报》刊登的文章写道:“海军今天展示了一台电子计算机原型,预期未来它可以走、说、看、写、自我复制,并意识到自身的存在。”3周日版的第二篇文章指出,海军官员不愿称之为机器,因为它“太像一个没有生命的人类了”4。罗森布拉特对大众媒体报道这件事情的方式越来越反感,尤其是俄克拉何马州的一篇报道的标题(《海军设计的会思考的科学怪物》5)。在之后的几年里,在同事之间以及在发表的研究成果中,他都用更有分寸的语言描述了这个项目。他坚称,这不是在人工智能方面的尝试,并承认其局限性。尽管如此,这个想法还是从他的控制下逃出去了。

感知机是最早的神经网络之一,也是杰夫·辛顿在50多年后拍卖给最高报价者的技术的早期化身。但在达到4 400万美元的价格之前,这项技术在学术上一直默默无闻,更不用说1958年夏天《纽约时报》那不切实际的未来预测了。到了20世纪70年代初,在那些美好的预测遭遇罗森布拉特时代的技术局限之后,这个想法几乎就此夭折。


弗兰克·罗森布拉特在1928年7月11日出生于纽约的新罗谢尔6,就在布朗克斯区以北。他就读于布朗克斯科学高中7,这是一所精英公立高中,培养出了8名诺贝尔奖获得者8、6名普利策奖获得者、8名美国国家科学奖章获得者9和3名图灵奖获得者10,图灵奖是世界顶尖的计算机科学奖。罗森布拉特身材瘦小,下巴多肉,头发又短又黑,呈波浪状,戴着标准的黑框眼镜,他学的是心理学,但兴趣广泛。1953年,《纽约时报》发表了一篇短短的报道,介绍一台他用来处理博士论文数据的早期计算机。11这台计算机名为EPAC,是“电子特征分析计算机”的简称,用来分析病人的心理特征。随着时间的流逝,他开始相信,机器可以提供对内心更深层次的理解。博士毕业后,他加入了位于布法罗的康奈尔航空实验室12,该实验室距离纽约州伊萨卡的康奈尔大学主校区约150英里1英里≈1.609 3千米。——编者注。这个飞行研究中心是在第二次世界大战期间由一家设计飞机的公司捐赠给康奈尔大学的,它在战后的几年里演变成了一个不拘一格的实验室,其运营几乎没有受到伊萨卡政府部门的监督管理。正是在这里,罗森布拉特设计了感知机,并得到了美国海军研究办公室的资助。

罗森布拉特将该项目视为了解大脑内部运作机制的一个窗口。13他相信,如果能用一台机器来重构大脑,他就能探索他所谓的“自然智能”的奥秘。14根据10年前芝加哥大学的两位研究人员最初提出的想法,感知机能够分析物体,并寻找能识别这些物体的模型(比如,卡片的左边或右边是否有标记)。它通过一系列的数学计算来实现这一点,其运行(在非常广泛的意义上)就像大脑中的神经元网络一样。当感知机查看每个物体并试图识别时,它会得到一些正确的结果,也会得到一些错误的结果。但它可以从错误中吸取教训,有条不紊地调整每项数学计算,直到错误少之又少。就像大脑中的一个神经元一样,每次计算本身几乎没有意义,它只是一个更大的算法的输入项。但是,更大的算法是一种数学配方,它实际上可以做一些有用的事情,或者至少是希望所在。1958年夏天,在气象局里,罗森布拉特展示了这个想法的开端——一台模拟感知机运行在气象局的IBM 704计算机上,那是当时领先的商用计算机。15然后,在布法罗的实验室里,他和一组工程师一起工作,开始围绕同样的想法打造一台全新的机器,他称之为马克一号(Mark I)。与当时的其他机器不同,它是被设计用来观察周围的世界的。在那年晚些时候,罗森布拉特在华盛顿会见自己的支持者时告诉一名记者:“一个非生物系统将以一种有意义的方式实现其对外部环境的管理,这还是第一次。”16

他在海军研究办公室的主要合作者并没有以同样夸张的眼光看待感知机,但罗森布拉特不为所动。“现在,我的同事不赞成人们听到的关于机械大脑的漫谈,”他边喝咖啡边告诉记者,“但事实正是如此。”17一个盛放奶油的银色小罐子放在他面前的桌子上,他拿了起来。罗森布拉特说,虽然这是他第一次看到这个小罐子,但他仍然能认出这是一个小罐子。他解释说,感知机也能做到同样的事情。它可以总结出如何区分狗与猫。但他承认,这项技术离实际应用还有很长的路要走:它缺乏深度感知和“判断力的完善”。18但他对其潜力充满信心,他说,感知机有一天会进入太空,并将其观测结果传回地球。当记者问感知机有没有什么做不到的事情时,罗森布拉特举起了双手。他说:“爱,希望,绝望。简言之,就是人性。如果连我们都不理解人类的性冲动,那么我们应该对机器有什么期待?”19

那年的12月,《纽约客》称赞罗森布拉特的创造是大脑的第一个重要对手。此前,该杂志曾惊叹于IBM 704能下一盘国际象棋。现在,它将感知机描述为一台更加卓越的机器,一台可以实现“人类思维”的计算机。20该杂志称,尽管科学家声称只有生物系统才能看见、感觉和思考,但感知机的行为“就像它能看见、感觉和思考一样”21。罗森布拉特还没有造出这种机器,但这仅被视为一个小小的障碍而已。该杂志称:“它的出现,只是时间和钱的问题。”22

罗森布拉特在1960年完成了马克一号,它占据了6个电气设备架的空间,每个都有冰箱那么大,它插在一个看起来像照相机一样的东西上。23尽管工程师已经移除了胶片加载器,换上了一个覆盖着400个黑点的方形小设备,但它就是一台照相机,这些黑点是能对光线变化产生反应的光电管。罗森布拉特和他的工程师们会在纸板上的方格内打印大写的字母——A、B、C、D等。当他们将这些纸板放在照相机前面的画架上时,光电管可以读取纸板上字母的黑线,并将其与空白区域区分开来。于是,马克一号学会了识别字母,就像气象局的IBM计算机学会识别标记的卡片一样。这需要房间里的人提供一点儿帮助:当它识别字母时,技术人员会告诉机器它是对的还是错的。但最终,根据自己是否正确,马克一号从中不断地学习,找出区分A的斜线和B的双曲线的图形。在演示机器时,罗森布拉特有办法证明这种行为是通过学习获得的。他把手伸到电气设备的架子上,拉出几根电线,断开充当人造神经元的马达之间的连接。在他重新连接电线之后,机器再次识别字母时很费力,但在查看了更多的卡片并重新学习了同样的技能之后,它又回到了之前的水准。

这种电子装置运行得如此良好,引起了海军以外的其他机构的兴趣。在接下来的几年里,位于美国北加州的实验室斯坦福研究所(Stanford Research Institute, SRI)开始探索同样的想法,罗森布拉特自己的实验室赢得了美国邮政部门和空军的合同。邮政部门需要一种读取信封上地址的方法,空军希望在航拍照片中识别目标,但这一切都还很遥远。罗森布拉特的系统只是在识别印刷字母时勉强有效,毕竟这是一项相对简单的任务。当系统分析印有字母A的卡片时,每个光电管检查卡片上的一个特定点,比如右下角附近的一个区域。如果这个地方更多的是黑色而不是白色,马克一号就给它分配一个高的权重,这意味着它将在数学计算中发挥更重要的作用,最终决定什么是一个A,什么不是。当读取一张新卡片时,如果大部分高权重的点被涂成黑色,机器就可以识别出字母A,仅此而已。这项技术还不够灵活,无法识别出不规则的手写字母。

尽管该系统存在明显的缺陷,罗森布拉特仍然对其未来持乐观态度。其他人也相信这项技术会在未来几年有所改善,并以更为复杂的方式学习更为复杂的任务。但它面临着一个重大的障碍:马文·明斯基(Marvin Minsky)。


弗兰克·罗森布拉特和马文·明斯基在同一时期就读于布朗克斯科学高中。241945年,明斯基的父母让他去美国的模范预科学校安多弗菲利普斯读书。“二战”结束之后,他进入了哈佛大学。但他抱怨说,这两所学校都比不上布朗克斯科学高中,那里的课程更具挑战性,学生们也更有野心。“你可以和他们讨论你最精巧的想法,没有人会对你居高临下。”他说。25罗森布拉特去世后,明斯基指出,他的老同学是那种走在科学殿堂里的创造性思想家。像罗森布拉特一样,明斯基是人工智能领域的先驱,但他是从不同的角度看待这个领域的。

在哈佛大学读本科时,明斯基使用了3 000多根真空管和一架旧的B——52轰炸机上的几个零件,打造了一台他称之为SNARC的机器,这可能是第一个神经网络。26然后,在20世纪50年代初读研究生时,他继续探索最终催生了感知机的数学概念,但开始在人工智能方面投入更大的精力。271956年夏天,在达特茅斯学院的一次会议上,他是将人工智能作为自己研究领域的少数科学家之一。28达特茅斯学院的一位名叫约翰·麦卡锡(John McCarthy)的教授建议更广泛的学术界探索一个他称之为“自动机研究”的领域,但这对其他人来说意义不大。29因此,他将其改名为“人工智能”,并在那年夏天与几位志同道合的学者和研究人员一起组织了一场会议。达特茅斯会议的议程包括“神经元网络”,但也包括“自动计算机”、“抽象概念”和“自我完善”。30那些参加会议的人将在20世纪60年代引领这场运动,其中最著名的是麦卡锡,他最终将自己的研究带到了西海岸的斯坦福大学;还有赫伯特·西蒙(Herbert Simon)和艾伦·纽厄尔(Alan Newell),他们在匹兹堡的卡内基——梅隆大学建立了一间实验室;以及明斯基,他就职于新英格兰地区的麻省理工学院。他们的目标是利用任何能够让自己实现梦想的技术来重新创造人类智能,他们确信这不会花太长时间,一些人认为,10年内机器将会击败国际象棋世界冠军,并发现自己的数学定理。31明斯基从小就秃顶,耳朵很大,笑容顽皮,他成了一位人工智能的布道者,但他的布道并没有延伸到神经网络领域。神经网络只是构建人工智能的一种方式,明斯基像他的很多同事一样,开始探索其他途径。到了20世纪60年代,随着注意力被其他技术吸引,他开始质疑,除了罗森布拉特在纽约北部实验室演示的简单任务之外,神经网络是否能够处理其他任何事情。

还有更大的群体在反对罗森布拉特的想法,明斯基只是其中的一部分。正如罗森布拉特自己在1962年出版的《神经动力学原理》(Principles of Neurodynamics)一书中所写的,感知机在学术界是一个有争议的概念,他把大部分责任归于新闻界。32罗森布拉特说,那些在20世纪50年代末报道他的工作的记者“像一群快乐的猎犬,带着旺盛的精力和自行决定的自由去完成这项任务”33。他尤其抱怨一则俄克拉何马州的头条新闻,该新闻称,要激发人们对罗森布拉特严肃的科学研究工作的信心,还有很长的路要走。在华盛顿那件事发生4年之后,他收回了自己早期的说法,并坚持认为感知机不是在人工智能方面的尝试,至少不是像明斯基这样的研究人员所理解的人工智能。他写道:“感知机项目主要关注的不是发明‘人工智能’设备,而是研究‘自然智能’背后的物理结构和神经动力学原理。它的效用在于让我们能够确定各种心理特征出现的物理条件。”34换句话说,他想了解人脑是如何工作的,而不是把一个新的大脑带到这个世界上。因为大脑是一个谜,他无法重新创造大脑。但是他相信,他可以用机器来探索这个谜,甚至可能解开这个谜。

从一开始,人工智能与计算机科学、心理学和神经科学的界限就模糊不清,因为围绕着这种新技术,出现了各个学术阵营,每个阵营都按照自己的方式描绘技术的前景。一些心理学家、神经科学家甚至计算机科学家都以罗森布拉特的方式来看待机器:机器是大脑的映射。其他人却轻蔑地看待这个宏大的想法,认为计算机的运转与大脑的运转完全不一样,计算机如果要模仿智能,就必须用自己的方式来实现。但是,还没有一个人能接近打造所谓的人工智能的目标。尽管该领域的开创者们认为重建大脑的道路是一条捷径,实际上那却非常漫长。他们的“原罪”就是声称自己的领域为人工智能,这给几十年来的旁观者们留下了这样的印象:科学家们正处于重新创造大脑能力的边缘,而事实上,他们并没有。

1966年,几十名研究人员前往波多黎各,聚集在圣胡安的希尔顿酒店。35他们聚在一起讨论当时被称为“模式识别”的技术的最新进展,这项技术可以识别图像中的图形和其他数据。罗森布拉特将感知机视为大脑的模型,而其他人将它视为模式识别的一种手段。在后来的几年里,一些评论家想象罗森布拉特与明斯基如何在各种学术会议上针锋相对,公开辩论感知机的未来,就像在圣胡安召开的会议上一样,但他们的竞争是含蓄的。罗森布拉特甚至没有去过波多黎各。在希尔顿酒店内,当一位名叫约翰·芒森(John Munson)的年轻科学家在会议上发言时,紧张的气氛出现了。芒森在斯坦福研究所工作,这间北加州的实验室在马克一号出现后就接受了罗森布拉特的想法。在实验室里,他与一支更大的研究团队一起,试图打造一个可以阅读手写字符而不仅仅是打印的字母的神经网络,他在会议上的演讲旨在展示这项研究的进展。但是,当芒森结束演讲并接受现场提问时,明斯基站了起来。“像你这样聪明的年轻人,怎么能把时间浪费在这种事情上呢?”他问道。

坐在观众席上的罗恩·斯旺格(Ron Swonger)感到很惊讶,他是马克一号的诞生地康奈尔航空实验室的一名工程师,明斯基的言论让他感到很愤怒,他质疑这次攻击是否与前面发表的演讲有关。明斯基并不关心手写字符的识别,他攻击的正是感知机这个想法。“这是一个没有未来的想法。”他说。在会场上的理查德·杜达(Richard Duda)是尝试打造手写字符识别系统的团队成员之一,当明斯基对感知机反映大脑神经元网络的说法不以为然时,观众的笑声刺痛了杜达。这种表演是明斯基的典型做法,他喜欢激起公众的争议。他曾经对一整个会议室的物理学家说,人工智能领域在短短几年内取得的进步,比物理学在几个世纪内取得的进步还要多。但是杜达也认为,这位麻省理工学院的教授有实际的理由攻击斯坦福研究所和康奈尔航空实验室这些研究机构的工作:麻省理工学院在与这些实验室竞争同样的政府研究经费。在会议之后的环节,当另一名研究人员展示了一个用于创建计算机图形的新系统时,明斯基称赞了其独创性,并再次抨击了罗森布拉特的想法。“感知机能做到这个吗?”他说。

会议结束后,明斯基和一位名叫西摩·佩珀特(Seymour Papert)的麻省理工学院同事出版了一本关于神经网络的书,他们将其命名为《感知机》(Perceptrons)36。很多人认为,在未来的15年里,这本书关闭了罗森布拉特的想法之门。明斯基和佩珀特用优雅的细节描述了感知机,这些细节在很多方面超越了罗森布拉特自己的描述。他们明白感知机能做什么,但他们也明白它的缺陷所在。他们表示,感知机无法处理数学家所谓的“异或”问题,这是一个深奥的概念,有着更大的含义。当在纸板上展示两个点时,感知机可以告诉你两个点是否都是黑色的,也可以告诉你它们是否都是白色的,但它无法回答一个简单的问题:“它们是两种不同的颜色吗?”这表明,在某些情况下,感知机无法识别简单的图形,更不用说航拍照片中极其复杂的图形或识别口语单词了。有一些研究人员,包括罗森布拉特在内,已经在探索一种旨在修复这一缺陷的新型感知机。尽管如此,在明斯基的新书出版之后,政府资金转移到了其他技术领域,罗森布拉特的想法也从人们的视野中消失了。在明斯基的带领下,大多数研究人员接受了所谓的“符号人工智能”的概念。

弗兰克·罗森布拉特的目标是打造一个能够像大脑一样自主学习的系统。在后来的几年里,科学家称之为“连接主义”,因为像大脑一样,它依赖于大量相互关联的计算。但是,罗森布拉特的系统比大脑简单得多,它只能在一些小的方面学习。像该领域其他领先的研究人员一样,明斯基认为,除非计算机科学家愿意放弃这一想法的限制,以一种完全不同且更直接的方式打造系统,否则他们很难重新创造智能。通过分析数据,神经网络可以自主学习,但符号人工智能做不到。符号人工智能是按照人类工程师制定的非常特殊的指令运行的,这些离散的规则定义了在可能遇到的每种情况下,机器应该做的所有事情。他们称之为符号人工智能,是因为这些指令向机器展示了如何对特定的符号集合(如数字和字母)执行特定的操作。在接下来的10年里,这是主导人工智能研究的方向。该研究在20世纪80年代中期达到了野心勃勃的顶峰,当时有一个名为Cyc的项目,试图一次一个逻辑规则地重建常识。37一个由计算机科学家组成的小组,总部设在得克萨斯州的奥斯汀,每天记录一些基本的真理,比如“你不能同时出现在两个地方”和“当你喝咖啡时,你要让杯口朝上”。他们知道这需要几十年甚至几个世纪的时间。但是,像其他很多人一样,他们认为这是唯一的方法。

罗森布拉特试图将感知机的范围拓展到图像之外。回到康奈尔航空实验室,他和其他研究人员开发了一个用于识别口语词汇的系统,名叫“托伯莫里”(Tobermory),这个名字源于一个英国短篇故事中的会说话的小猫,但此系统从未真正奏效过。到了20世纪60年代末,罗森布拉特转向了一个完全不同的研究领域,在老鼠身上进行大脑实验。38在一组老鼠学会在迷宫中寻找出路之后,他会将它们的大脑物质注射给第二组老鼠,然后将第二组老鼠放进迷宫,看看它们的大脑是否吸收了第一组老鼠已学会的东西。结果没有定论。

1971年夏天,在他43岁生日当天,罗森布拉特在切萨皮克湾的一次帆船事故中丧生。报纸上没有提及水面上发生了什么,但是,据他的一位同事说,他的帆船上带了两名以前从未出海航行的学生。帆船的吊杆在摆动时将罗森布拉特撞到了水里,但学生们不知道如何将船掉头。当他在海湾里溺亡时,船还在继续前进。