人工智能:语音识别理解与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1 介绍

在前一章中,我们回顾了概率理论和统计的知识,其中介绍了随机变量的概念和概率分布的相关概念。接着讨论了高斯和混合高斯的随机变量及它们的向量数值化或多元版本。所有这些概念和例子都是静态的,意味着它们没有使随机变量的长度或维度随着时间序列的长度而改变的时间维度。对语音信号的静态部分来说,幅度谱(如倒谱)特征能很好地用混合高斯的多元分布表示。这就产生了适用于短时或静态语音模式的语音特征的混合高斯模型(GMM)。

在本章中,我们将把随机变量的概念延伸到(离散时间)随机序列,随机序列是使用可变长度的齐次间隔离散时间来索引的随机变量的集合。对随机序列的一般统计特性,参见文献[42]的第3章,但在本章中我们只摘取马尔可夫序列的部分作为一般随机序列的最常用类别。状态对马尔可夫序列来说是基本概念。当马尔可夫序列的状态被限定为离散时,我们就得到了马尔可夫链,在马尔可夫链中由离散状态变量表示的所有可能的值都构成了(离散)状态空间,这些将在3.2节中详述。

当每一个离散状态的值被一般化为一个新的随机变量(离散或者连续)时,马尔可夫链便被一般化为(离散或连续)隐马尔可夫序列,或者当它用于表征或接近真实世界数据序列的统计特性时便被一般化为隐马尔可夫模型(Hidden Markov Model,HMM)。在3.3节中,我们定义HMM中的参数,包括隐含马尔可夫链的转移概率和在给定状态下概率密度函数中的分布参数。接着展示怎样通过概率采样来模拟一个HMM。我们将详细介绍给定观察序列时,HMM的似然度的有效计算方法,这是将HMM应用到语音识别和其他实际问题中的重要基础。

接着,在3.4节中首先介绍在包含隐含随机变量的一般性统计模型中,应用于参数的最大似然估计的EM算法的背景知识。然后将EM算法应用于解决HMM(同样适用于GMM,因为GMM可被视作HMM的特殊情况)的学习或者参数估计问题。HMM学习的实际算法是著名的Baum-Welch算法,它被广泛用于语音识别和其他涉及HMM的应用中。本章将给出Baum-Welch算法中E步骤的详细推导,核心是求出给定输入训练数据时,HMM中每个状态的后验概率。估计马尔可夫链的转移概率、高斯HMM的均值向量和方差矩阵的M步骤的详细推导随后给出。

我们将在3.5节中介绍著名的用于给定输入序列状态解码HMM状态的维特比(Viterbi)算法。同时将介绍动态规划的技巧,即Viterbi算法的本质优化准则。

最后,在3.6节中将HMM作为统计模型应用于实际的语音问题中。先讨论如文献[83-86]中所描述的,HMM作为一种优秀的生成性模型被用于语音特征序列建模的能力。通过贝叶斯准则的使用,HMM与语音数据的良好匹配使得这个生成性模型能被用于语音识别的分类任务中[87, 88]。从对HMM作为语音中生成性模型缺点的分析延伸到它的一些变体,在其变体中,每一个HMM状态条件下语音数据分布的时序独立和稳态特性被更加实际、非固定、暂相关、使用潜在或隐含结构[78, 79, 81, 82, 89, 90]的动态系统所代替。这些解释在数学形式上,为基于状态空间模型的动态系统与循环神经网络架起了桥梁,相关内容将在本书第12章中介绍。