智能语音处理
上QQ阅读APP看书,第一时间看更新

1.2.4 经典语音处理方法的不足

语音信号的产生是一个非常复杂的非线性过程,经典处理方法难以完美地进行处理,主要存在以下不足[2]

1. 模型表示不够精准

传统的“声源-滤波器”模型对人类的发声系统进行了建模,可以较好地表征语音信号,但当实际系统中的语音信号受到外界噪声干扰时,基于“声源-滤波器”模型则难以准确刻画声音的变化细节。听觉模型的引入和听觉场景分析的研究,为更充分地提取特征参数奠定了基础,在语音识别、情感分析等应用中得到了较好的应用,但目前的特征表示尚不够理想,如何利用语音时频结构来构建与各种语音信息的良好映射关系还需要进一步研究。

2. 多源信息难以分离

关于人类感知语音的研究表明,人脑对语音中的语义、说话人、情感等多源信息具有可分性,因此人脑可以从混杂的语音信号中轻易提取出感兴趣的成分,如图1-4所示。但人的大脑对听觉信息的获取都建立在共同的听觉神经单元上,对语音中的内容、说话人信息等各种信息的处理模型具有相似性。而经典的各种语音处理系统中,对不同的应用采用了不同的模型和处理方法,使得语音处理的功能比较单一,通用性较差。

图1-4 人的听觉感知系统能从混杂信号中分离出感兴趣的信息