1.4.3 语音识别
我们的目标不仅仅是让计算机有“看”和“语言”的能力,还要让计算机拥有“听”和“说”的能力,因此还需要语音识别(Voice Recognition)。语音识别的目标是将一段自然语言通过声学信号的形式传给计算机,由计算机理解并且做出回应。语音识别系统主要包含特征提取、声学模型、语言模型、字典与解码4大部分。其中特征提取需要对采集的声音信号进行滤波、分帧等音频预处理工作,目的是将要进行分析的音频信号合适地从原始信号中提取出来。语音识别的过程可以概括如下:根据特征提取将声音信号从时域转换到频域,从而为声学模型提供合适的特征向量;再由声学模型根据特征向量来判断其属于哪个声学符号;然后利用语言模型来判断声学符号可能属于哪个词组序列;最后根据已有字典对词组序列进行解码,从而得到最后的文本表示。
在人机交互的过程当中,计算机除了能通过语音识别技术来“听懂”人们对它说的话,还需要能够将文本信息用人们能听懂的方式表达出来。在这样的需求下,语音合成技术应运而生。语音合成技术能够利用计算机等设备将文本信息转换为人们能听懂的音频数据,再通过语音的方式播放出来。
声纹识别是语音识别领域的又一个研究方向。与语音识别不同,声纹识别属于生物识别技术的一种,它根据语音波形中反映说话者生理和行为特征的语音参数,通过连接声纹数据库来鉴别人的身份。因此,声纹识别不注重语音信号的语义理解,而是从语音信号中提取个人声纹特征,并从中找出能够唯一辨别(声纹识别的理论基础是每一个声音都有自己的特征,该特征能将不同人的声音进行有效地区分)说话者身份特征的信息。
语音识别有很广阔的应用场景和发展空间,如:行车导航软件通过语音合成技术为司机指引道路、播报路况,人们甚至可以选择用自己喜欢的明星的声音来播报软件内容;智能家居系统利用语音合成技术能够实现与用户的实时交流,人们可以从智能家居的“嘴”中得知家中的一些基本情况,大大提高了生活质量;在智能教学领域,学生能够利用语音合成技术跟读单词、句子,语音辅导软件的出现大大方便了教学过程,提高了教学质量。
1.5 下一代人工智能
我们首先通过图1-6来回顾一下人工智能的发展历程。
图1-6 人工智能发展历程
到目前为止,人工智能按照总体向上的发展历程,可以大致分为4个发展阶段,分别为精耕细作的诞生期、急功近利的产业期、集腋成裘的爆发期,以及现在逐渐用AutoML来自动产生神经网络的未来发展期。早期由于受到计算机算力的限制,机器学习处于慢速发展阶段,人们更注重于将逻辑推理能力和人类总结的知识赋予计算机。但随着计算机硬件的发展,尤其是GPU在机器学习中的应用,计算机可以从海量的数据中学习各种数据特征,从而很好地完成人类分配给它的各种基本任务。此时,深度学习开始在语音、图像等领域大获成功,各种深度学习网络层出不穷,完成相关任务的准确率也不断提升。同时,深度学习神经网络朝着深度更深、结构更加巧妙复杂的方向推进,GPU的研发与应用也随着神经网络对算力要求的不断提高而持续快速向前推进。图1-7展示了近年来主要神经网络的发展。
图1-7 主要深度神经网络的发展
2012年,AlexNet为了充分利用多个GPU的算力,创新性地将深度神经网络设计成两部分,使网络可以在两个GPU上进行训练。2013年,ZFNet又进一步解决了Feature Map可视化的问题,将深度神经网络的理解推进了一大步。2014年,VGGNet通过进一步增加网络的深度而获得了更高的准确率;同年,GoogLeNet的发明引入了重复模块Inception Model,使得准确率进一步提升。而2015年ResNet将重复模块的思想更深层次地发展,从而获得了超越人类水平的分辨能力。这时,由于深度神经网络层数的不断加深,需要训练的参数过于庞大,为了在不牺牲精度的同时减少需要训练的参数个数,2017年DenceNet应运而生。
随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢?出于这个构思,2017年Google推出了AutoML——一个能自主设计深度神经网络的AI网络,紧接着在2018年1月发布第一个产品,并将它作为云服务开放出来,称为Cloud AutoML。自此,人工智能又有了更进一步的发展,人们开始探索如何利用已有的机器学习知识和神经网络框架来让人工智能自主搭建适合业务场景的网络,人工智能的另一扇大门被打开。
1.6 参考文献
[1] MCCARTHY J,MINSKY M L,ROCHESTER N,et al.A proposal for the Dartmouth summer research project on artificial intelligence[EB/OL].(1955-08-31)[2019-05-30].https://www.aaai.org/ojs/index.php/aimagazine/article/view/1904.
[2] MOORJ.The Dartmouth college artificial intelligence conference:the next fifty years[J].AI Magazine,2006,27(4):87-89.
[3] KLINE R.Cybernetics,automata studies and the Dartmouth conference on artificial intelligence[J].IEEE Annals of the History of Computing,2011,33(4).
[4] SOLOMONOFF R J.The time scale of artificial intelligence:reflections on social effects[J].Human Systems Management,1985,5(2):149-153.
[5] MUEHLHAUSER L.Ben Goertzel on AGI as a field[EB/OL].(2013-10-18)[2019-05-30].http://intelligence.org/2013/10/18/ben-goertzel/.
[6] DVORSKY G.How much longer before our first AI catastrophe?[EB/OL].(2013-04-01)[2019-05-30].https://io9.gizmodo.com/howmuch-longer-before-our-first-ai-catastrophe-464043243.
[7] KURZWEIL R.The singularity is near[M]//SANDLER R L.Ethics and emerging technologies.London:Palgrave Macmillan,2014:393-406.
[8] CHALMERS D.The singularity:a philosophical analysis[J].Journal of Consciousness Studies,2010,17(9-10):7-65.
[9] WEI L K.AI concepts in architectural design[C]//IOPscience.IOP conference series:materials science and engineering.Bristol:IOP Publishing,2018,392(6):062016.
[10] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//NIPS.Advances in neural information processing systems 25.New York:Curran Associates,2012:1097-1105.
[11] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//IEEE.Proceedings of the IEEE conference on computer vision and pattern recognition.Boston:IEEE,2015:3431-3440.
[12] DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv:1810.04805,2018.