第1章 人工智能的定义与人机交互的发展
1.1 人工智能的发展历程
说起人工智能(Artificial Intelligence,AI),不得不提及人工智能的历史。人工智能的概念主要由艾伦·图灵(Alan Turing)(1)提出:机器会思考吗?如果一台机器能够与人类对话而不被辨别出其机器的身份,那么这台机器具有智能的特征。同年,艾伦·图灵还预言存在一定的可能性可以创造出具有真正智能的机器。
1.1.1 AI诞生
1956年8月,在达特茅斯学院举行的一次会议上,来自不同领域(数学、心理学、工程学、经济学和政治学)的科学家一起讨论如何利用机器来模仿人类学习以及其他方面的智能。会议足足开了两个月的时间,虽然大家没有达成普遍的共识,但是却为会议讨论的内容起了一个名字:“人工智能”,并正式把人工智能确立为研究学科。因此,1956年成了人工智能的元年。
2006年达特茅斯会议当事人重聚,左起:特伦查德·摩尔(Trenchard More)、约翰·麦卡锡(John McCarthy)(2)、马文·明斯基(Marvin Minsky)(3)、奥利弗·赛尔弗里纪(Oliver Selfridge)、雷·索洛莫洛夫(Ray Solomonoff)
1.1.2 第一次发展高潮(1955—1974年)
达特茅斯会议之后是大发现的时代。对很多人来讲,这一阶段开发出来的程序堪称神奇:计算机可以解决代数应用题、证明几何定理、学习和使用英语。在众多研究当中,搜索式推理、自然语言、微世界(4)在当时最具影响力。
大量成功的AI程序和新的研究方向不断涌现,研究学者认为具有完全智能的机器将在二十年内出现并给出了如下预言:
1958年,赫伯特·西蒙(H.A Simon)和艾伦·纽厄尔(Allen Newell)认为:“十年之内,数字计算机将成为国际象棋世界冠军;数字计算机将发现并证明一个重要的数学定理。”
1965年,赫伯特·西蒙认为:“二十年内,机器将能完成人能做到的一切工作。”
1967年,马文·明斯基认为:“在一代人的时间里,各种创造‘人工智能’的问题将获得实质上的解决。”
1970年,马文·明斯基认为:“在3~8年的时间里我们将得到一台具有人类平均智能的机器。”
美国政府向这一新兴领域投入了大笔资金,每年将数百万美元投入到麻省理工学院、卡耐基梅隆大学、爱丁堡大学和斯坦福大学四个研究机构,并允许研究学者去研究任何感兴趣的方向。
当时主要成就如下:
(1)人工神经网络在20世纪30—50年代被提出,1951年马文·明斯基制造出第一台神经网络机。
(2)理查·贝尔曼(Richard Bellman)提出了贝尔曼方程(也被称为动态规划方程,被认为是强化学习的雏形)。
(3)弗兰克•罗森布拉特(Frank Rosenblatt)提出了感知器模型(深度学习的雏形)。
(4)人工智能研究人员先后提出了搜索式推理、自然语言处理、微世界等人工智能概念。
(5)人工智能研究人员首次提出:人工智能拥有模仿智能的特征,懂得使用语言,懂得形成抽象概念并解决人类现存问题。
(6)亚瑟·塞缪尔(Arthur Samuel)在20世纪50年代中期和60年代初期开发了国际象棋程序,程序的棋力已经可以挑战具有相当水平的业余爱好者。
(7)查理·罗森(Charlie Rosen)打造了全球首款具备移动能力的智能机器人Shakey,它可以感知周围环境并创建路线规划;可以根据明晰的事实来推断隐藏的含义;能够通过普通英语进行沟通。该机器人项目受到政府和研究人员的大力宣传,人们将其视作世界上第一台通用机器人。
1.1.3 第一次寒冬(1974—1980年)
20世纪70年代初,人工智能的研究首次遭遇到瓶颈。研究学者逐渐发现,虽然机器拥有了简单的逻辑推理能力,但遭遇到当时无法克服的基础性障碍,人工智能停留在“玩具”阶段止步不前,远远达不到曾经预言的完全智能。詹姆斯·莱特希尔(James Lighthill)在1973年发出的报告中对目前人工智能基础研究进行了评判,认为当前的自动机和中央神经系统研究虽然有价值但进展令人失望,并认为机器人研究没有太大价值,建议取消对机器人的研究。由于此前的过于乐观使得人们期待过高,当人工智能研究人员的承诺无法兑现时,公众开始激烈批评相关研究人员,许多机构不断减少对人工智能研究的资助,直至停止拨款。
当时主要问题如下:
(1)计算机运算能力遭遇瓶颈,无法解决指数型爆炸的复杂计算问题。
(2)常识和推理需要大量对世界的认识信息,计算机达不到“看懂”和“听懂”的地步。
(3)计算机无法解决莫拉维克悖论(5)。
(4)计算机无法解决部分涉及自动规划的逻辑问题。
(5)神经网络研究学者遭遇冷落。
1.1.4 第二次发展高潮(1980—1987年)
20世纪80年代初,一类名为“专家系统”(6)的AI程序开始被全世界的公司所采纳,人工智能研究迎来了新一轮高潮。在这期间,卡耐基梅隆大学为DEC公司设计的XCON专家系统能够每年为DEC公司节省数千万美金。日本经济产业省拨款8亿5千万美元支持第五代计算机项目,其目标是造出能够与人对话、翻译语言、解释图像、能够像人一样推理的机器。其他国家也纷纷做出了响应,并对AI和信息技术的大规模项目提供了巨额资助。
当时主要成就如下:
(1)专家系统的诞生。
(2)人工智能研究人员发现智能可能需要建立在对分门别类的大量知识的多种处理方法之上。
(3)由杰弗里·辛顿(Geoffrey Hinton)(7)等研究人员提出的反向传播算法实现了神经网络训练的突破,神经网络研究学者重新受到关注。
(4)人工智能研究人员首次提出:机器为了获得真正的智能,机器必须具有躯体,它需要有感知、移动、生存,与这个世界交互的能力。感知运动技能对于常识推理等高层次技能是至关重要的,基于对事物的推理能力比抽象能力更为重要,这也促进了未来自然语言、机器视觉的发展。
1.1.5 第二次寒冬(1987—1993年)
1987年,AI硬件的市场需求突然下跌。科学家发现,专家系统虽然很有用,但它的应用领域过于狭窄,而且更新迭代和维护成本非常高。同期美国Apple和IBM生产的台式机性能不断提升,个人计算机的理念不断蔓延;日本人设定的“第五代工程”最终也没能实现。人工智能研究再次遭遇了财政困难,一夜之间这个价值五亿美元的产业土崩瓦解。
当时主要问题如下:
(1)大型计算机受到台式机和个人计算机理念的冲击影响。
(2)商业机构对人工智能的追捧逐渐冷落,使人工智能再次化为泡沫并破裂。
(3)计算机性能瓶颈仍然无法突破。
(4)人工智能研究人员仍然缺乏海量数据训练机器。
1.1.6 第三次发展高潮(1993年至今)
在摩尔定律(8)下,计算机性能不断突破。云计算、大数据、机器学习、自然语言和机器视觉等领域发展迅速,人工智能迎来第三次高潮。在这一阶段,AI发展的主要事件如下。
1997年:
IBM的国际象棋机器人“深蓝”战胜了曾经23次获得世界排名第一的国际象棋世界冠军卡斯帕罗夫(Garry Kasparov)。这是一次具有里程碑意义的成功,它代表了基于规则的人工智能的胜利。
卡斯帕罗夫和深蓝机器人博弈
2005年:
塞巴斯蒂安·特伦(Sebastian Thrun)(9)带领斯坦福大学的学生制造了一台无人驾驶汽车Stanley并参加DARPA(美国国防部高级研究计划所)举办的无人驾驶汽车大赛,Stanley成功地在一条沙漠小径上自动行驶了131英里,也是比赛以来第一辆成功穿越整个沙漠回到起点的汽车,最终斯坦福大学赢得了DARPA挑战大赛头奖和两百万美元奖金。
无人驾驶汽车Stanley
2006年:
(1)杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)(10)在国际顶级期刊《科学》上正式提出了深度学习的概念,为后来人工智能的发展带来了重大影响。
(2)Google前CEO埃里克·施密特(Eric Schmidt)在搜索引擎大会提出“云计算”概念,并表示“云计算”将取代传统以PC为中心的计算。
2010年:
(1)塞巴斯蒂安·特伦领导的谷歌无人驾驶汽车被曝光,谷歌的无人驾驶汽车在加州的高速公路和弯曲的城市街道上行驶并创下了超过14万千米无事故的纪录。
(2)斯坦福大学任助理教授李飞飞和同事在2009年国际计算机视觉与模式识别会议(Conference on Computer Vision and Pattern Recognition,CVPR)的一篇论文中推出了ImageNet数据集。从2007—2009年,ImageNet利用人工、互联网分时雇佣平台等传统方法,收集了超过320万个被标记的图像,分为12个大类别以及5247个小类别。ImageNet数据集可以说是计算机视觉研究人员进行大规模物体识别和检测时最常用也是最优先考虑的视觉大数据来源。从2010年开始,这个数据集迅速发展成为一项年度竞赛——ImageNet大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),衡量哪些算法可以以最低的错误率识别数据集图像中的物体。
2011年:
(1)IBM Waston参加智力游戏《危险边缘》,击败最高奖金得主布拉德·鲁特(Brad Rutter)和连胜纪录保持者肯·詹宁斯(Ken Jennings)。
(2)苹果发布语音个人助手Siri,用户可以使用自然的对话与手机进行交互,完成搜索数据、查询天气、设置手机日历、设置闹铃等许多服务。
(3)Nest Lab发布第一代智能恒温器Nest,它可以了解用户的习惯,并相应自动地调节温度。
第一代智能恒温器Nest
2012年:
(1)Google发布了个人助理Google Now,Google Now为Google搜索应用程序的一部分,它可以识别用户在设备上重复的动作,例如常见的位置、重复的日历活动、搜索历史等,并以卡片的方式向用户提供相关信息。
(2)杰夫·迪恩(Jeff Dean)(11)和吴恩达(12)领导了“谷歌大脑”项目,通过深度学习技术让16000个中央处理器核心学习1000万张关于猫的图片后,成功在海量Youtube视频中识别出猫的图像,这次成功被大众认为是人工智能领域真正的里程碑。
(3)在ILSVRC 2012中,多伦多大学的杰弗里·辛顿(Geoffrey Hinton)和他的两名学生提交了一个名为AlexNet的深度卷积神经网络架构,使图像识别错误率降低至10.8%,获得了当年竞赛的第一名。同时,卷积神经网络的效果震惊了整个计算机视觉界,成为业界里家喻户晓的名字。
(4)上文提及的AlexNet仅在2块英伟达GTX 580 GPU上训练几天就赢得了ILSVRC 2012的冠军,极大地降低了时间和硬件成本。这件事引起了世界各地的人工智能研究人员的关注,用GPU来训练模型使得深度学习技术得以迅速发展。英伟达也凭借其CUDA平台一飞冲天,后续凭借自己领先的GPU技术迅速在自动驾驶、数据中心、视觉计算、边缘计算等领域攻城略地,成为人工智能领域最炙手可热的明星企业。
2013年:
深度学习算法在语音和视觉识别率上获得突破性进展。
2014年:
(1)微软亚洲研究院发布人工智能聊天机器人小冰和语音助手Cortana,小冰可以在微博、微信等平台上为用户提供天气、交通、星座等信息搜索服务;而Cortana被用于Windows设备上,它会根据用户行为和使用习惯给出不同的响应。
(2)百度发布了Deep Speech语音识别系统,它可以在饭店等嘈杂环境下实现将近81%的辨识准确率,高于Google、Bing等竞争对手。
(3)斯坦福大学人工智能实验室主任李飞飞主导的科学家团队开发了一个机器视觉算法,该算法能够通过对图像进行分析,然后用语言对图像中的信息进行描述,例如两个人在公园里玩飞盘等。
(4)微软CEO萨提亚·纳德拉(Satya Nadella)在首届Code大会中介绍了全新Skype语音翻译工具,该工具能够对完整对话实现语音到语音的实时翻译。
(5)亚马逊发布了个人语音智能助理Alexa,并用于刚发售的蓝牙音箱Echo上。
2015年:
(1)Facebook发布了一款基于文本的人工智能助理M,M可以在Facebook Messenger上为用户提供餐厅订位、选生日礼物、挑选周末假期等服务。
(2)Google发布了开源深度学习系统TensorFlow 0.1版本。
(3)新发布的第三代微软小冰被定义为17岁的高中女生,拥有了全新的人工智能感官系统和微软多项人工智能图像与语音识别技术。根据微软公布的统计数字显示,人类用户与小冰的平均每次对话轮数达到18轮,而当前同类机器人的平均对话轮数仅有1.5~2轮。
(4)百度发布了新一代深度学习语音识别系统Deep Speech 2,汉语识别准确率高达97%,被《麻省理工科技评论》入选为2016年“全球十大突破性技术”。
(5)Google发布了深度学习高级API——Keras,它能够在TensorFlow、Theano等多个深度学习框架上运行,其易用性和语法简洁性大大降低了深度学习的学习成本。从发布至今,有数以百计的开发人员对Keras的开源代码做了完善和拓展,数以千计的热心用户在社区对Keras的发展做出了贡献,Keras深受开发者的欢迎。
2016年:
(1)Google AlphaGo以比分4:1战胜围棋九段棋手李世石。
(2)Google发布了第一代专门为深度学习框架TensorFlow设计的AI专用芯片TPU,它的处理速度要比CPU和GPU快15~30倍(13),而在能效上,TPU更是提升了30~80倍。
(3)Google发布了AI语音助手Google Assistant,它被运用在Pixel手机、Google Home智能音箱和聊天应用Allo上。
(4)在2016年微软开发者峰会上,微软发布了微软认知服务,包括了视觉、语音、语言、知识和搜索五个方面,协助第三方开发者用简单的代码实现自己的智能应用。
(5)微软发布了第四代微软小冰,她整合了全新的情感计算框架和实时流媒体感官,可以做到通过文本、图像、视频和语音与人类展开交流,平均对话轮数上升至25轮。同时,小冰积累的大数据促使小冰在人工智能虚拟歌手领域取得了重大突破,微软宣布小冰正式进入虚拟歌手市场。
(6)聊天机器人(Chatbots)概念开始在欧美地区流行。
(7)Google旗下的DeepMind发布了最新的原始音频波形深度生成模型WaveNet,它能够通过深度神经网络为任何音频进行建模,生成的语音非常自然。
(8)Google、Facebook、IBM、亚马逊和微软共同宣布成立一家非营利机构——Partnership on AI,其成立的目的是汇集全球不同的声音,以保障AI在未来能够安全、透明、合理地发展,让世界更好地理解人工智能的影响。随着机构的发展,苹果、英特尔、索尼、百度等AI领头企业陆续加入其中。
2017年:
(1)Google正式发布了开源深度学习系统TensorFlow 1.0和面向移动设备的TensorFlow Lite预览版,极大降低了人工智能应用的开发成本。
(2)Google AlphaGo Master在围棋网络对战平台以60连胜击败世界各地高手,并以比分3:0完胜世界第一围棋九段棋手柯洁。随后的新版本Google AlphaGo Zero不借助人类玩家的棋谱,完全忽略几千年以来人类积累的围棋智慧,通过自我对弈方式进行自我学习。三天内AlphaGo Zero自我对弈490万局并以100:0的战绩战胜了AlphaGo,花了21天达到AlphaGo Master的水平,用40天超越了所有旧版本。在2017年底,DeepMind又发布了AlphaGo的后续版本——AlphaZero,它比之前的AlphaGo Zero更为强大的地方在于它能适用于各种棋类上。AlphaZero从零开始训练,4小时就打败了国际象棋的最强程序Stockfish;2小时就打败了日本将棋的最强程序Elmo;8小时就打败了与李世石对战的AlphaGo v18。
(3)Google在开发者大会上发布了AutoML、ARCore SDK和Google Lens。Google Lens可以根据图片或拍照识别出文本和物体,实时分析图像并迅速共享信息,这意味着计算机“识别万物”的愿景即将到来。Google Assistant在语音、文字和图像三大方面都有多项更新,并投入使用到计算机、手表、电视、车载系统等安卓设备上。
(4)Google发布了第二代专用AI芯片TPU。除了速度有所提升,相比只能做推理的初代TPU,TPU 2.0既可以用于训练神经网络,又可以用于推理。
(5)卡耐基梅隆大学开发的人工智能系统Libratus战胜4位德州扑克顶级选手,并获得了最终胜利,这意味着计算机在“非完整信息博弈”上超越了人类。
(6)百度在AI开发者大会上正式发布语音系统Dueros和无人自动驾驶平台Apollo 1.0。
(7)华为发布全球第一款AI移动芯片麒麟970,集成了中国AI芯片公司寒武纪提供的NPU寒武纪A1,在人工智能应用上达到了四核CPU 25倍以上的性能和50倍以上的能效。
(8)默默深耕机器学习和机器视觉的苹果在WWDC 2017上发布Core ML、ARKit等组件。随后发布的iPhone X配备前置3D感应摄像头(TrueDepth),脸部识别点达到3万个,具备人脸识别、解锁和支付等功能;配备的A11 Bionic神经引擎每秒可达到运算6000亿次。
(9)AR领域最神秘最受关注的创业公司Magic Leap发布了消费级AR眼镜Magic Leap One。
(10)中国发布了世界第一款量子计算机。量子计算机可以突破传统计算机的多项瓶颈,提供更快的运算速度,这意味着我们的生活方式和商业模式即将有翻天覆地的变化。
(11)第五代微软小冰拥有了高级感官系统,包括全新的全双工语音交互感官(Full-duplex Voice Sense)(14),同时微软小冰正式进入IoT领域,开始与多家设备厂商进行深度合作。
(12)计算机视觉乃至整个人工智能发展史上的里程碑——ImageNet大规模视觉识别挑战赛于2017年正式结束,图像识别错误率降低至2.25%,远远低于人类的5.1%。如今的ImageNet已经拥有了1500万张标注图像和超过2.2万个类别,很多人认为ILSVRC是如今席卷全球AI浪潮的催化剂。
2018年(事件更新至2018年10月):
(1)芯片制造商高通发布了人工智能引擎AI Engine,并与百度、商汤科技等多家AI公司进行深度合作。这次发布意味着全球三大移动芯片提供商高通、华为和苹果全部入局人工智能领域,人工智能应用将会迎来新的浪潮。
(2)Google TPU云服务以每小时6.5美元的价格正式对外开放,这意味着普通开发者也可以使用“谷歌级别”的人工智能计算能力。
(3)与人工智能相关的四项技术包括感知城市、面向所有人的人工智能、对抗神经网络和巴别鱼耳塞(实时翻译耳机)被《麻省理工科技评论》入选2018年“全球十大突破性技术”。
(4)IBM、Intel和Google相继发布量子计算机。Google的通用量子计算机Bristlecone拥有72个量子比特,实现了1%的低错误率并有机会实现量子霸权(15)。
(5)中国AI芯片公司寒武纪发布了第三款NPU“寒武纪1M”,可以满足不同场景、不同量级的AI处理需求,可广泛应用于智能手机、智能音箱、智能摄像头和智能驾驶等不同领域中。“寒武纪1M”将被华为麒麟980搭载。
(6)Google在开发者大会上发布了第三代TPU,性能比第二代提高了8倍。Google Assistant新增加了Google Duplex技术,除了可以理解更复杂的句子外,还能以更自然的人声以及更接地气的对话方式与人类互动。
(7)苹果在WWDC 2018上发布了Core ML 2.0和ARKit 2.0。Core ML 2.0比第一代速度快了30%;ARKit 2.0增加了增强人脸追踪、真实感图形绘制、多用户AR互动等新功能。
(8)百度在AI开发者大会上正式发布云端全功能AI芯片“昆仑”、百度大脑3.0、语音系统DuerOS 3.0、无人自动驾驶平台Apollo 3.0。
(9)微软人工智能小冰迎来了史上最大幅度的一次年度升级,正式进化为第六代小冰。全新的小冰具备可交互的3D形象,已经从一个领先的人工智能对话机器人,发展成为以情感计算为核心的完整人工智能框架。小冰的产品形态涉及对话机器人、语音助手、内容创造提供者和一系列垂直领域解决方案。微软首次披露了小冰在全球已拥有6.6亿用户,占据了全球对话式人工智能总流量中的绝大部分。
第六代微软小冰3D形象
(10)Google在谷歌云年度大会宣布推出Cloud AutoML Natural Language与Cloud AutoML Translation两大工具,加上此前已推出的Cloud AutoML Vision,AutoML可以帮助各行业缺少AI经验的企业和开发者建立属于自己的图像识别、自然语言处理和机器翻译模型。
(11)Google在谷歌云年度大会第二天宣布推出用于边缘计算的Edge TPU和Edge ML。Edge TPU可以以超低功率的方式进行机器学习推理;Edge ML是TensorFlow Lite ML工具的精简版,在本地运行预先训练好的Edge ML模型,可以显著提高边缘设备的处理能力和多功能性。后续有更多的智能硬件拥有AI的能力。
(12)苹果新发布的iPhone XS配备了业界首款7nm也是iPhone迄今最智能、最强大的芯片A12 Bionic。相比每秒可以处理6千亿次操作的A11 Bionic,新版本芯片每秒可以处理5万亿次操作。
(13)IBM在旧金山举办了一场人机辩论大战,IBM最新人工智能产品Project Debater与两位经验丰富的辩手Noa Ovadia和Dan Zafrir进行较量。Project Debater在两场由观众投票的辩论中赢得了其中一场,辩题为“是否应该增加使用远程医疗”。最重要的是,这是第一个展示出辩论能力的人工智能系统。
(14)Google发布了面向JavaScript开发者的全新机器学习框架TensorFlow.js,开发者可以在浏览器上开发以及运行机器学习模型。
(15)Facebook在F8开发者大会上发布了深度学习框架PyTorch 1.0,它深度整合了业界最流行的深度学习框架Caffe2(Facebook的另外一款深度学习框架),其中一个名为fastai的开源库可以大量减少深度学习的学习成本和工作量,深受开发者的欢迎。
(16)Google旗下的Waymo开始无人车的士服务的商业化运营。