数字媒体技术导论
上QQ阅读APP看书,第一时间看更新

3.5 数字音频技术的应用

3.5.1 语音识别技术

1.什么是语音识别技术

语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解过程把语音信号转变为相应的文本或命令,也就是让机器听懂人类的语音。如果计算机配置有“语音辨识”程序组,那么当人的声音通过一个转换装置输入计算机内部并以数位方式存储后,语音辨识程序便开始以输入的声音样本与事先存储好的声音样本进行对比工作。声音对比工作完成之后,计算机就会输入一个它认为最“像”的声音样本序号,就可以知道刚才的声音是什么意义,进而执行此命令。

2.语音识别技术所涉及的领域

语音识别技术所涉及的领域大体有:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。其中,模式识别技术是目前语音识别系统中最常用的技术。模式识别是指对事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

3.语音识别系统的分类

语音识别系统的分类主要是根据对输入语音的限制进行分类的。

(1)如果从说话者与识别系统的相关性考虑,可以将识别系统分为以下三类

①特定人语音识别系统:仅考虑对于专人的话音进行识别。

②非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。

③多人的识别系统:通常能识别一组人的语音,或者称为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

(2)如果从说话的方式考虑,也可以将识别系统分为以下三类

①孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿。

②连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。

③连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

(3)如果从识别系统的词汇量大小考虑,也可以将识别系统分为以下三类

①小词汇量语音识别系统:通常包括几十个词的语音识别系统。

②中等词汇量的语音识别系统:通常包括几百个词到上千个词的识别系统。

③大词汇量语音识别系统:通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

4.语音识别的应用领域

办公室或商务系统:典型的应用包括填写数据表格、数据库管理和控制、键盘功能增强等。

制造业:在质量控制中,语音识别系统可以为制造过程提供一种“不用手”“不用眼”的检控(部件检查)。

电信:相当广泛的一类应用,在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

医疗:这方面的主要应用是由声音来生成和编辑专业的医疗报告。

其他方面:包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。

语音识别:语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

5.语音识别技术的基本方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

(1)基于声道模型和语音知识的方法

第一步,分段和标号,把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号。

第二步,得到词序列,根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。

(2)模板匹配的方法

模板匹配的方法发展比较成熟,目前已达到实用阶段。在模板匹配方法中,要经过4个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

(3)人工神经网络的方法

人工神经网络是20世纪80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、健壮性、容错性和学习特性,其强的分类能力和输入/输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于人工神经网络不能很好地描述语音信号的时间动态特性,所以常把人工神经网络与传统识别方法结合,分别利用各自优点来进行语音识别。

3.5.2 音频检索

1.什么是音频检索

音频检索是指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。音频包括语音和非语音两类信号。一直以来,音频信号的处理主要集中于语音识别、说话者识别等语音处理的方面。

2.音频检索的基本方法

首先是建立数据库,对音频数据进行特征提取;通过特征对数据聚类,用户通过查询界面选择一个查询例子,并设置属性值;然后提交查询。系统对用户选择的示例提取特征,结合属性值确定查询特征矢量,并对特征矢量进行模糊聚类,然后检索引擎对特征矢量与聚类参数集匹配,按相关性排序后通过查询接口返回给用户。

3.音频检索中对音频特征提取的方法

特征提取是指寻找原始音频信号表达形式,提取能代表原始信号的数据。

音频特征提取有两种不同的技术线路:一种是从叠加音频帧中提取特征,其原因在于音频信号是短时平稳的,所以在短时提取的特征较稳定;二是从音频片段中提取,因为任何语义都有时间延续性,在长时间刻度内提取音频特征可以更好地反映音频所蕴涵的语义信息,一般是提取音频帧的统计特征作为音频片段特征。

首先,对音频数据进行加窗处理形成帧,加窗大小在几到几十微秒,相邻帧之间一般有30%~50%的叠加。然后,对每一帧作离散傅里叶变换(DFT),实际上常用快速傅里叶变换(FFT),得到傅里叶系数F(w)和频域能量

其中, =fs/2,fs为采样频率。最后应用不同算法计算相应的帧特征,再计算帧特征的标准偏差、数学期望值和方差,把帧特征推广成片段特征。

4.音频分类技术与方法

音频检索中音频分类占据着非常重要的作用。音频分类技术是音频结构化的基础,在一定程度上实现了音频流的结构化,为在更高语义层次上实现音频内容结构化提供了基础。

其基本方法是:首先应提供适量的训练样本,比如选取足量的音乐文件;然后提取样本特征,进行聚类处理,将每类的全体文件看成一个音频数据来处理,计算该类的样本模板。判断文件的类别时,与计算音频相似度类似,计算音频的模板与各类模板间的距离,当距离小于某一阈值或为最小距离时,则此时的类即为文件所在的类。

5.音频检索的应用与发展

国内外已经开发出了多种音频检索原型系统。如MELDEX系统、QBH客户端、ECHO,以及由我国上海交通大学的薛锋、杨宗英、郑巧英和黄敏等研发的音乐检索系统。

音频检索在互联网检索页面具有重要的现实意义,如Google、Podcastle等。随着多媒体技术、数据库技术、网络通信技术和信息压缩技术等的迅速发展,以及更多国际标准的出台,为音频检索提供了更多的技术支持和发展空间。

【实例分析3-10:语音识别技术“Siri”】

Siri是苹果公司在其产品iPhone4S、iPad 3及以上版本手机上应用的一项语音控制功能。Siri可以令iPhone 4S及以上手机变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。其最大的特色则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了“喝了点”“家”这些字(甚至不需要符合语法),Siri则会判断为喝醉酒、要回家,并自动建议帮忙叫出租车。

Siri成立于2007年,2010年被苹果以2亿美元收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri实现了语音识别功能。

本章小结

数字音频的发展可以说是超乎人们想象,特别是设备上,更是发展飞快。更多新型硬件层出不穷。即便是更新换代如此之快,也都是从根本上的知识来进行创造的。所以基础知识非常重要。

思考题

1什么是声音的三要素?它们分别由哪些物理属性来决定?

2常见的有哪几种听觉效应?

3简述压缩器中都有哪些参数。这些参数所代表的意义是什么。

4什么是混响?什么是混响时间?简述混响时间与房间大小的关系。

5话筒都有哪些指向性?

6调音台的主要功能有哪些?数字调音台与模拟调音台最大的区别是什么?

7音箱监听与耳机监听的区别有哪些?

8简述采样率、比特精度。

9什么叫声画对位、声画同步?

10阐述模/数、数/模是如何转换的。

知识点速查

◆声波由物体振动产生,振动发声的物体称为声源,有声波传播的空间称为声场。

◆声速:空气(15℃)340m/s

◆频率范围:低频20~200Hz;中频200Hz~5kHz;高频5~20kHz。

◆声音的传播特点:反射、衍射、干涉、能量耗损。

◆人耳几种听觉效应:掩蔽效应、双耳效应、哈斯效应、鸡尾酒会效应、多普勒效应。

◆声波的三种物理特性:频率、波长和振幅。

◆动态范围及动态余量:动态范围用来描述某一段音频或者某一台设备能够处理的最大信号与最小信号的差值。动态余量是指正常信号电平与失真电平之间用分贝来表示的电平差。

◆信噪比:信号与噪声的比例。

◆调音台的基本功能:放大、为每个通道设置可控均衡器、通道或母线分配、声音监听、视觉监视、电平调节、提供测试信号、跳线。

◆常见音频信号处理器:均衡器、压缩器、混响器。

◆压缩比:输入信号分贝数与输出信号分贝数之比,其大小决定了对输入信号的压缩程度。

◆门限:决定压缩器在多大输入电平时才起作用的参数。

◆比特:单位为bit。比特率是指将模拟声音信号转换成数字声音信号后,单位时间内的二进制数据量,表示单位时间(1s)内传送的比特数的速度。比特率越大音质就越好。

◆采样率(Sampling Rate):单位为Hz。采样率或是采样频率是音频数字化时对模拟信号测量时的速率。