1.2 人工智能的核心技术体系
发展人工智能,最重要的是抢占科技竞争和未来发展的制高点,突破关键核心技术,在重要科技领域成为领跑者。深入剖析当前人工智能的发展,我们看到其核心技术可以分为基础技术、通用技术、应用技术3个层面,各个层级间协作互通,底层的平台资源和中间层基础技术研发的进步共同决定了上层应用技术的发展速度。
1.人工智能的基础技术
机器学习(Machine Learning)是人工智能最重要的基础技术,是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的科学。一个不具有学习能力的系统很难被认为真正具备“智能”,因此机器学习在人工智能研究中扮演着最为核心的地位。在过去的几十年中,机器学习虽已在垃圾邮件过滤系统、网页搜索排序等领域有了广泛的应用,但在面对一些复杂的学习目标时仍未能取得重大突破,如图片、语音识别等。究其原因,是由于模型的复杂性不够,无法从海量数据中准确地捕捉微弱的数据规律,也就达不到好的学习效果,在此背景下,深度学习的兴起为人工智能基础技术的持续发展注入了新的动力。
深度学习是机器学习最重要的分支之一,大大优化了机器学习的速度,使人工智能技术取得了突破性进展,深度学习最核心的理念是通过增加神经网络的层数来提升效率,将复杂的输入数据逐层抽象和简化,相当于将复杂的问题分段解决,这与人脑神经系统的某些信息处理机制非常相近。目前,深度学习已在图像识别、语音识别、机器翻译等领域取得了长足进步,并进行了广泛应用。例如,图像识别可以凭借一张少年时期的照片就可在一堆成人照片中准确地找到这个人,机器翻译可以帮助人们轻松看懂外文资料等。
人工智能的基础技术具有较高的门槛,这在一定程度上决定了只有少数的大企业和高校才能深入参与,但通过开放平台的方式,则可以将深度学习技术赋能各行各业。从目前的发展状况来看,深度学习平台开源化是趋势,更高效的开源平台将孕育更庞大的场景应用生态,也将带来更大的市场价值。各行各业可依托深度学习开放平台,实现自身的产业升级与优化。未来人工智能的竞争将是基于生态的竞争,主要发展模式将是若干主流平台加上广泛的应用场景,而开源平台是该生态构建的核心,也是人工智能最大化发挥创新价值的基础。在我国,百度飞桨(PaddlePaddle)是深度学习开源平台的典型代表。2016年9月,百度开源了深度学习飞桨平台,开源平台兼备易用性、高效性、灵活性和可扩展性等特点,可供广大开发者下载使用。百度现有100多个主要产品的应用采用了该平台,成为继Google(谷歌)公司,Facebook(脸书)公司、IBM(国际商业机器公司)公司之后全球第4个将人工智能技术开源的科技巨头,也是国内首个开源深度学习平台的科技公司。此外,阿里、科大讯飞、旷视科技等企业在开源平台领域也有布局。
2.人工智能的通用技术
在基础设施和算法的支撑下形成的人工智能通用技术层,主要包括赋予计算机感知能力的计算机视觉技术和语音技术,提供理解和思考能力的自然语言处理技术,提供决策和交互能力的规划与决策、运动与控制等;每个技术方向下又有多个具体的子技术,如图像识别、图像理解、视频识别、语音识别、语义理解、语音合成、机器翻译、情感分析等。其中语音识别、计算机视觉和自然语音处理发展得较为成熟,并且应用领域较广的基础技术,决策与规划、运动与控制等则是自动驾驶技术的重要组成部分。
1)语音识别
传统的语音识别技术虽然起步较早,但识别的效果有限,离实用化的差距始终较大。直到近年来深度学习的兴起,语音识别技术才在短时间内取得了突破性进展。2011年微软率先取得了突破,在使用深度神经网络模型之后,将语音识别错误率降低至30%,2013年,谷歌公司语音识别系统错误率约为24%,融入深度学习技术之后,2015年错误率迅速降低至8%。
在随后的几年中,我国在语音识别领域也取得了较快的发展,已经达到世界领先水平。科大讯飞的语音技术集中在语音合成、语音识别、口语评测等方面,讯飞输入法的语音识别准确率可达97%。2015年12月,百度发布了Deep Speech 2深度语音识别技术,用于提高在嘈杂环境下语音识别的准确率,其错误率低于谷歌、微软及苹果的语音系统。《麻省理工科技评论》(MIT Technology Review)将它评为“2016年十大突破技术”之一,认为百度在该领域取得了令人印象深刻的进展,这项技术将在几年内极大地改变人们的生活。目前,百度语音识别在搜索、地图、阅读等产品中得到广泛应用,仅百度输入法一项,语音的日请求量就达到了5.5亿。
2)计算机视觉
计算机视觉是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并进一步做图像处理,用计算机处理成更适合人眼观察或传送给仪器检测的图像。传统的计算机视觉识别需要依赖人们对经验的归纳提取,进而设定机器识别物体的逻辑,有很大的局限性,识别率较低。深度学习的引入让识别逻辑变为自学习状态,精准度大大提高。
计算机视觉包括人脸识别、细粒度图像识别、OCR文字识别、图像检索、医学图像分析、视频分析等多个方向,在典型的图像识别应用——人脸识别方面,已经做到了比肉眼更精准。我国的人脸识别技术水平位居世界前列,近几年在权威人脸识别技术比赛FDDB(Face Detection Data Set and Benchmark)和LFW(Labeled Faces in the Wild)的测试中,百度、腾讯、商汤科技、旷视科技等企业均取得了非常好成绩。2015年,百度研发的Deep Image图像识别系统,在LWF测试中取得了准确度99.77%的优异成绩,而在该项测试中人类的准确度仅能达到99.2%。2016年,在全球最权威的计算机视觉大赛ImageNetILSVRC(大规模图像识别竞赛)上,南京信息工程大学、香港中文大学、海康威视、商汤科技、公安部第三研究所等高校、企业或研究机构共获得了5个项目的第一。
3)自然语言处理
用自然语言与计算机进行通信,目的是解决计算机与人类语言之间的交互问题,这是人们长期以来所追求的目标。如果说语音识别技术让计算机“听得见”,那么自然语言处理则让计算机“听得懂”,人们可以用自己最习惯的语言来和设备交流,而无须再花大量的时间和精力去学习和习惯各种设备的使用方法。例如,当你用语音询问手机百度“今天哪个车号限行”,机器会反馈结果;若你想继续询问明天的限行车号,只要说“那明天呢”,机器就可以根据上下文背景给出正确的答案。
目前,自然语言处理的研究领域已经从文字处理拓展到语音识别与合成、句法分析、机器翻译、自动文摘、问答系统、信息检索、OCR识别等多个方面,并发展出统计模型、机器学习等多种算法。深度学习技术在自然语言处理领域的应用,进一步提升了计算机对语言理解的准确率。借助深度学习技术,计算机通过对海量语料的学习,能够依据人们的表达习惯,更准确地把握一个词语、短语甚至一句话在不同语境中的表达含义。汉语诗歌生成是自然语言处理中一项具有挑战性的任务,对此百度提出了一套基于主题规划的诗歌生成框架,有效地提升了主题相关性,大幅度提高了自动生成的诗歌的质量。2016年,百度在手机百度和百度度秘上推出了“为你写诗”功能,可以让用户任意输入题目生成古诗。
3.人工智能的应用技术
人工智能应用正在加速落地,深刻地改变了世界和人类的生产、生活方式。小到手机语音助手、行为算法、搜索算法,大到自动化汽车及飞机驾驶,人工智能应用技术与各个垂直领域结合,不断拓展“A+”应用场景的边界,探索智慧未来的无限可能。人工智能应用技术丰富多彩,其中在人机交互、自动驾驶、机器翻译等领域最早得到应用和普及。
1)人机交互
从科技的发展来看,每一次人机交互的更迭都推动了时代的变革。PC(个人计算机)时代,人们使用鼠标、键盘与计算机进行交互,微软的Windows桌面操作系统以近90%的市场占有率牢固地确立了市场霸主地位。移动互联网时代,触摸成为人们与平板计算机、手机进行交互的主要方式,谷歌的Android系统和苹果的iOS系统成为这个领域最大的赢家。到了人工智能时代,语言正在成为最自然的交互方式。随着深度学习技术的发展,对语音的准确识别及对语义的准确理解的提高,让机器理解并执行人类语言指令成为可能,对话式人工智能系统应运而生,成为未来的发展方向。智能助理是人机交互最为广泛的应用,百度度秘、阿里小蜜、腾讯叮当、京东JIMI等都是这一领域的典型代表。在国内外,大企业纷纷布局对话式人工智能系统,如亚马逊公司的Alexa、谷歌公司的Google Assistant、百度公司的DuerOS等,并在众多产品中得到广泛应用,DuerOS可以用自然语言作为交互方式,同时借助云端大脑,可不断学习进化,变得更聪明。它可以应用于手机、电视、音箱、汽车等多种设备,让人们通过最自然的语音方式与设备进行交互,使设备具备与人类沟通和提供服务的能力。
我国互联网应用所覆盖的场景广泛,因此提供的服务更加多样化,与语音交互的结合点也会更多,伴随着技术的发展将会有广阔的应用空间。现阶段,在人与设备进行语音交互方面,语音识别问题已经基本得到解决。自然语言理解和多轮交互属于更深层次的认知层,涉及记忆机制、思考机制、决策机制等领域的研究探索,目前技术虽然已有突破,但是还需要持续进步。在此背景下,语言交互实现全场景覆盖难度很大,选择合适的应用场景成为应用落地需要重点考虑的方向。
2)自动驾驶
自动驾驶涉及计算机视觉、决策与规划、运动与控制等多项人工智能基础技术,在自动驾驶的环境感知、路径规划与决策、高精度定位和地图等关键环节,这些技术均有所应用和体现,其中对环境的智能感知技术是前提,智能决策和控制技术是核心,高精度地图和传感器是重要支撑。
在国内的自动驾驶领域,互联网企业成为重要的驱动力量,百度自2013年开启无人驾驶汽车项目,目前已拥有环境感知、行为预测、规划控制、操作系统、智能互联、车载硬件、人机交互、高精定位、高精地图和系统安全等十项技术。2016年9月,百度获得了美国加州无人车道路测试牌照。同年11月,百度无人车在浙江乌镇开展全球首次开放城市道路运营和体验,腾讯也于2016年下半年成立自动驾驶实验室,聚焦自动驾驶核心技术研发。在这一领域,还兴起了大量的创业公司,包括驭势科技、智行者、图森未来、禾多科技、主线科技、新石器等。
3)机器翻译
随着人工智能技术的提升和多语言信息数据的爆发式增长,机器翻译技术开始为普通用户提供实时便捷的翻译服务,而深度学习则让机器翻译的精确性和支持的语种数量都得到大幅提高。机器翻译可以为人们的生活带来各种便利,使语言难题不再困扰我们的学习和生活,小到出国旅游、文献翻译,大到跨语言文化交流、国际贸易,多语言的信息连通大趋势更加凸显出机器翻译的重要价值。
2016年,百度机器翻译项目获国家科学技术进步二等奖。目前百度翻译已支持28种语言,756个翻译方向,用户数超5亿,每天响应上亿次翻译请求。科大讯飞也是机器翻译领域的代表企业,面向国家“一带一路”倡议,科大讯飞正式推出多语种翻译产品,在将语音实时转换为文字的同时,还能同步翻译成英语、日语、韩语、维语等,实现轻松跨语言交流。