1.4.2 语音处理的新应用领域
除了传统的应用领域之外,语音理解、语音转换、骨导语音增强、语音情感分析等语音处理新应用领域也越来越受到人们的广泛关注。
1. 语音理解
语音理解是利用知识表达和组织等人工智能技术进行语句自动识别和语义理解,即让计算机理解人所说的话的含义,是实现人机交互的关键。
语音理解与语音识别的主要区别是对语法和语义知识的充分利用程度。由于人们已经掌握了很多语音知识,对要说的话能有一定的预见性,因此人对语音具有感知分析的能力。语音理解研究的核心是依靠人对语言和谈论的内容所具有的广泛知识,利用知识提高计算机理解语言的能力。
利用知识提高计算机理解能力,不仅可以排除噪声的影响,理解上下文的意思并能用它来纠正错误,澄清不确定的语义,而且能够处理不符合语法或意思不完整的语句。一个语音理解系统除了包括原语音识别所要求的部分之外,还必须增加知识处理部分。知识处理包括知识的自动收集、知识库的形成、知识的推理与检验等。当然,还希望能自动地进行知识修正。因此,语音理解可以看作信号处理与知识处理的产物。语音知识包括音位知识、音变知识、韵律知识、词法知识、句法知识、语义知识以及语用知识。这些知识涉及语音学、汉语语法、自然语言理解以及知识搜索等许多交叉学科。
实现完善的语音理解系统是非常困难的,然而面向特定任务的语音理解系统是可以实现的,例如飞机票预售系统,银行业务、旅馆业务的登记及询问系统等。
2. 语音转换
语音转换[4]的目标是把一个人的声音转换为另一个人的声音。
一般来说,人们把改变语音中说话人个性特征的语音处理技术统称为语音转换,广义的语音转换可分为非特定人语音转换和特定人语音转换两大类。非特定人语音转换是指通过技术处理,使得转换后的语音不再像原说话人的声音;而在实际研究和应用中,语音转换通常是指改变一个说话人(源说话人)的语音个性特征(如频谱、韵律等),使之具有另外一个特定说话人(目标说话人)的个性特征,同时保持语义信息不变。一般来说,特定人语音转换的技术难度要高于非特定人语音转换。
研究表明,语音中的声道谱信息、共振峰频率和基音频率等参数是表征语音个性特征的主要因素。通常一个完整的语音转换方案由反映声源特性的韵律转换和反映声道特性的频谱(或声道谱)转换两部分组成。韵律的转换主要包括基音周期的转换、时长的转换和能量的转换,而声道谱转换包括共振峰频率、共振峰带宽、频谱倾斜等转换。声道谱包含更多的声音个性特征,且转换建模相对复杂,是影响语音转换效果的主要原因。因此,目前的语音转换研究主要集中在对声道谱的转换上。
实现语音转换系统通常包含训练和转换两个阶段。在训练阶段,首先对源说话人和目标说话人的语音进行分析和特征提取,然后对提取特征进行映射处理,并对这些映射特征进行模型训练,进而得到转换模型;在转换阶段,对待转换源语音进行分析、特征提取和映射,然后用训练阶段得到的转换模型对映射特征进行特征转换,最后将转换后的特征用于语音合成,得到转换语音。
语音转换研究的相关工作最早可追溯到20世纪70年代,至今已经有约五十年的时间,但真正受到学术界和产业界广泛关注则是近十多年的事情。近年来,语音信号处理和机器学习等技术的进步以及大数据获取能力和大规模计算性能的提高有力地推动了语音转换技术的研究及发展。特别是基于人工神经网络的语音转换方法的兴起,使得转换语音的质量得到进一步提升。
3. 骨导语音增强
骨导语音增强[5]是一种改善骨导麦克风所拾取的语音质量的技术。
骨导麦克风是一种非声传感器设备,人说话时声带振动会传递到喉头和头骨等部位,骨导麦克风通过采集这种振动信号并转换为电信号来获得语音(骨导语音)。与传统的空气传导麦克风语音(气导语音)不同,背景噪声很难对这类非声传感器产生影响,所以骨导语音从声源处就屏蔽了噪声,因此非常适用于强噪声环境下的语音通信,可广泛应用于军事、消防、特勤、矿山开采、公共交通、紧急救援等领域。
虽然骨导麦克风具有很强的抗噪性能,但由于人体传导的低通性能以及传感器设备工艺水平的限制等,骨导语音听起来比较沉闷、不够清晰,骨导语音增强的目的就是对骨导语音进行处理以提高其语音质量。
与气导语音相比,骨导语音存在高频衰减严重、辅音音节损失、中低频谐波能量改变等特征差异,其中以高频成分衰减严重最为突出。针对这个问题,传统的骨导语音增强方法主要有无监督频谱扩展法和均衡法等。目前,大多数的骨导语音盲增强采用基于谱包络转换的方法。
基于谱包络转换法的骨导语音增强通常包括训练阶段和增强阶段。在训练阶段,骨导语音与气导语音数据经过分析合成模型,提取出语音的谱包络特征,通过训练构建骨导语音到气导语音的谱包络特征之间的转换模型;在增强阶段,首先提取待增强语音的激励特征和谱包络特征,然后可利用已经训练好的模型从骨导语音谱包络特征中估计出类气导语音谱包络特征,由于骨导与气导语音的激励信号近似相同,可直接将骨导语音激励信号作为估计的类气导语音激励信号,最后根据估计出的谱包络和骨导语音原始的激励特征合成出增强的语音。
4. 语音情感分析
语音情感分析就是根据语音中蕴含的情感特征来判断说话人说话时的情绪。
人在说话时,除了表达语义信息外,通常还会融入一定的情感信息。例如,说同样一句话,如果说话人表现的情感不同,在听者的感知上就可能有较大的差别,甚至会得到完全相反的感受。因此,语音情感分析成为语音处理中一个十分重要的研究分支。
情感分类是实现语音情感分析的前提,不同学者提出不同的分类方法,而最基本的情感分类是基于喜、怒、惊、悲的四情感模型。
语音情感分析通常基于语音情感特征提取和情感分类模型来实现。
语音之所以能够表达不同的情感,是因为语音中包含了能反映情感特征的参数。情感的变化通过特征参数的差异来体现。因此,从语音中提取反映情感的特征参数是实现语音情感分析的重要步骤。一般来说,语音信号中的情感特征往往通过语音韵律的变化表现出来。研究表明,可以从时间构造、振幅构造、基频构造、共振峰构造等方面来研究语音情感特征的变化,进而提取反映语音情感的特征参数。例如,当说话人处于不同情感状态时,说话的语速、音量、音调等都会发生变化。愤怒状态时,语速通常要快一些,音量会变大,音调也可能会变高[6]。
提取出反映情感信息的特征后,语音情感分析就依赖情感分类模型来实现。学者们经过研究已经找到很多情感分类方法,其中主成分分析法、混合高斯模型法、人工神经网络法可以在语音情感分析方面取得较好的识别效果。