1.4 语音信号处理过程的总体结构
信息加工和处理的一般流程如图1.1所示。
在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的表示;然后再用某种高级的变换把这一信号变成一种更加方便的形式;最后一步是信息的提取和使用,这一步可由听者来完成,也可由机器自动完成。
所以,语音信号处理一般有两个任务:第一,它是一种工具,利用它可以得到语音信号的一般表示,这种表示可以用波形表示也可用参数形式表示;第二,把信号从一种形式变换到另一种形式,变换后的表示形式虽然从性质上讲它的普遍性可能小一些,但对某一特殊应用却是更加合适。由此从总体上来看,语音信号处理过程可以用统一的框架来表示,其基本的结构框图如图1.2所示。
图1.1 信号加工和处理的一般流程
从图1.2可以看出:无论是语音识别还是语音编码与合成,对于输入的语音信号首先要进行预处理,对信号进行适当的放大和增益控制,并进行反混叠滤波来消除工频信号的干扰;然后进行数字化,将模拟信号转换为便于计算机处理的数字信号;随后对数字语音信号进行分析,提取一定的反映语音信息的参数;最后根据语音信号处理任务的不同,采用不同的处理方法。语音识别技术分为两个阶段:语音识别和训练阶段。在训练阶段,对用特定的参数形式表示的语音信号进行相应的处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模板,并将所有能识别的基本单元的参考模板结合在一起,形成参考模式库;在识别阶段,将待识别的语音信号经特征提取后逐一与参考模型库中的各个模板按某种原则进行比较,找出最相似的参考模板所对应的发音,即为识别结果。对于语音编码技术来说,为了对语音信号进行有效的传输,需要对语音信号以某种算法进行编码,并在接受端进行解压缩。对于语音信号的合成,则是对编码后的信号进行储存。
图1.2 语音处理过程的结构框图