智能语音处理
上QQ阅读APP看书,第一时间看更新

4.1 引言

在大数据背景下,往往需要用多个变量对事物进行描述,并通过收集大量数据来分析和寻找蕴含在数据中的规律。多变量、大样本为研究和应用提供了丰富的信息,但同时也在一定程度上增加了问题的复杂度。

在实际情况中,诸多变量之间可能存在相关性,即某些变量与其他变量之间可能存在线性或其他类型的函数关系,从而带来了变量的冗余,不利于在数据中寻找规律。因此,如何在合理减少描述事物的变量个数的同时,尽可能地降低信息损失,是寻找数据内部规律性表示所追求的目标。数据表示的维度越少,内部规律性的呈现就越直观,而实现维度减少的过程就是数据降维。数据降维不仅可以降低模型复杂度、减少存储空间,还可以提高算法鲁棒性、减少冗余信息以及有助于数据的可视化。

目前在语音信号处理中,一般采用时频分析方法来提取语音信号的时频表示特征,在此基础上进一步进行相应的处理。语音信号的时频表示特征一般具有较高的维数(例如256点STFT之后的幅度谱系数维度为129,常用的梅尔倒谱系数维度为39等),这种高维度表示虽然能很好地包含语音信息,但会导致后续处理模型更为复杂,语音内部蕴含的规律也无法直观地呈现。通过数据降维可以去除冗余信息,发现语音特征中潜在低维结构的规律性,从而为后续的智能处理任务提供有力支持。

数据降维可以通过线性映射和非线性映射来实现。这两类方法的本质是将原数据表示进行线性或非线性组合以获取简约的表示,从而实现数据降维。线性映射方法的代表方法有主成分分析、线性判别分析、非负矩阵分解等,非线性映射方法的代表方法有核方法、流形学习等。

本章首先介绍两种典型的组合模型,即正交表示下的组合模型(主成分分析)和非正交表示下的组合模型(非负矩阵分解)的基本模型、求解方法和优缺点;然后,针对两类组合模型对噪声较为敏感的问题,介绍两类鲁棒的组合模型,以提高组合模型抵抗噪声的能力。