![数字音频编辑Adobe Audition实用教程(微课版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/194/47562194/b_47562194.jpg)
1.1 数字音频基础
声音是自然界的一种客观物理现象,它通过耳朵被人感知。经过科学家长期不懈的探索,人类不仅了解了声音的一般规律,还逐步发展出模拟音频和数字音频两种技术。
1.1.1 声音的产生与波形图
当发音物体振动时,会引发周围的弹性媒质——空气的气压产生波动,从而形成疏密波,这就是声波。声波是看不见的,但可以用测量仪器将其以图形的方式表达出来,这就是声波图,如图1-1所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0013-0007.jpg?sign=1740080230-Z87FNOn3vCyg1VZQLkqdvdrYsxCHSrPB-0-6d69eb4181b5fabae5b350d3e01bfd87)
图1-1 声波图
声波图反映了物体振动发音时的气压状况。
1.零点线
零点线就是一个有效的声音正弦波与中心线的交叉点的连线,是外界大气压力的基准线。声波曲线与零点线交叉时,处在无声或静音状态。
2.高压区
高压区是指声波在某一瞬时空气压力高于外界大气气压。
3.低压区
低压区是指声波在某一瞬时空气压力低于外界大气气压。
经验
选择声音片段的起始点和结尾点都处于零点位置的区域进行剪切、复制、粘贴或删除,这样对原波形文件的整体破坏是最小的,声音听起来也会更加自然。
1.1.2 声波与听觉
用户可以对声波进行测量与分析。声波最基本的参数是频率、振幅、相位等,与此相关的是音调、声强、方位等听觉感受。
1.频率与波长
频率是指物体每秒振动的次数,单位是赫兹(Hz)。波长是指声波在一个振动周期内传播的距离,它可以用相邻两个波峰或波谷之间的距离来表达。波长与频率成反比:频率越高,波长越短;频率越低,波长越长。人耳对音调的感觉与声波的频率相关,频率越高音调越高,频率越低音调越低。自然界中声波的频率范围很广,人耳能够感受到的声波频率范围为20Hz~20kHz,这个频段的声音也称为音频。
2.振幅
振幅是振动物体离开零点线位置的最大距离,描述了物体振动幅度的大小和振动的强弱。声波的振幅反映了声音的强弱,振幅越大声音越强,振幅越小声音越弱,图1-2所示为20Hz声波的振幅与波长。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0014-0008.jpg?sign=1740080230-anoC4OKCFDH8DerxqtvU0jnFLTbBMC8c-0-f14e8041ac5d853ba2220ed375d7cedb)
图1-2 20Hz声波的振幅与波长
3.相位与双耳效应
相位用于描述信号波形的变化,通常以度(角度)为单位,也称为相角。当信号波形以周期的方式变化时,波形循环一周即为360°。零点(即原点)为起始点,当相位为90°时处于波峰位置,当相位为180°时第一次回到零点,当相位为-270°时处于波谷位置,当相位为360°时再次回到零点,声波的相位如图1-3所示。人的双耳可以觉察到声波相位和强度的细微变化,并感觉到声源的方位,这种现象被称为双耳效应。
1.1.3 声波的分解与叠加
1.声波的分解
任何一个周期性振动,无论其振动多么复杂,都可以分解为一系列不同振幅、不同频率和不同相位的简谐振动。这种现象是法国数学家、物理学家傅里叶(见图1-4)发现的,称为傅里叶变换定律。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0014-0009.jpg?sign=1740080230-TT8SixyYzRa7tyLslwi2ozrtdj4j5dvt-0-1c83284d37f0d0fddff3e4357c13f4fe)
图1-3 声波的相位
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0014-0010.jpg?sign=1740080230-UGgWswmSiltFzyFBCRhJ3bds8AuggXH6-0-1b423418b71acd294c7138547413e221)
图1-4 法国数学家、物理学家让·巴普蒂斯·约瑟夫·傅里叶
试验中形成方波可以由一个正弦波的若干奇次谐波叠加形成,如图1-5所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0015-0011.jpg?sign=1740080230-4FGohRda6OZjt8v8fjtUzmLnDyE2Vn2j-0-3a218f38e4fae6ccae886785a2adc8e7)
图1-5 正弦波的若干奇次谐波叠加形成方波
2.声波的叠加
多个声波信号叠加时,根据其相位不同,将产生不同的效果。
(1)同相叠加:两个或多个声波重叠,如果它们是等相位的叠加,声波的振动强度增加,其振幅为两个或多个声波之和。两个等相位的声波叠加前后的振幅对比如图1-6所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0015-0012.jpg?sign=1740080230-q59quQdu10qajitutXmuOnfvbcXhLQBL-0-57de0fd4915f42235cba719cc0978b8c)
图1-6 两个等相位的声波叠加前后的振幅对比
(2)反相叠加:两个或多个反相位的声波叠加,声波的振动强度将相互抵消,如果是两个等幅度反相位的声波叠加,其振幅为零,声波消失。两个反相位的声波叠加前后的振幅对比如图1-7所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0015-0013.jpg?sign=1740080230-zypfIZhyllzzslzpigCOYt9ZOmddNwuO-0-9ed03a6ec370f727f79dee9d37360e54)
图1-7 两个反相位的声波叠加前后的振幅对比
(3)复杂相位叠加:如果是不同频率和不同振幅的不规则声波混合在一起,最终会得到相对复杂的混合声波。人们所听到的自然界中大部分的声音都是复杂相位叠加后的混合声波,如音乐、人声、噪声和其他声音。不同频率和振幅的声波叠加前后的振幅对比如图1-8所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0016-0014.jpg?sign=1740080230-Msi4kOHOTD7fSzsHTE8gPRfPyndkwoQj-0-8ab7b57f926146a91fd97a08269ddcb5)
图1-8 不同频率和振幅的声波叠加前后的振幅对比
经验
在音频编辑中,常常会有多个声波的叠加现象,导致产生极其复杂的波形,因此要特别注意声波叠加后可能产生的相位问题。
1.1.4 声波的能量
在声波传播的过程中,媒介中的各质点会发生振动,因此具有动能。同时,媒介还要发生形变,因此还具有位能。由此可见,声波的传播也是能量的传播。
人耳听觉的频率范围是20Hz~20kHz,这是一个极大的范围。为了适应人类听觉的这个特性,同时也为了计量方便,科学家把有效声压值或声强值取对数来表示声音的强弱,这种表示声音强弱的数值叫声压级(dB)或声强级(dB)。
dB的全称是分贝尔,简称分贝。贝尔(Bel)是一种广泛应用的相对值参量,是以美国发明家亚历山大·格雷厄姆·贝尔命名的,他因发明电话而闻名于世。单位贝尔太粗略,更小一些的单位是分贝尔, 1贝尔(Bel)等于10分贝尔(dB)。分贝表示法的主要价值在于它使人们能够在较小的数值范围里讨论数值范围很大的物理量。
在声学领域中,分贝值用声源功率与基准声功率比值的对数乘以10的数值来表示,用于形容声音的响度。公式中的基准声功率值为10W/m,是指人耳所能感受到的最低声强值,即零分贝。
声压级(dB)与声强级(dB)参量的使用给人们带来很大的方便,因为它们更接近人对声音强弱的听觉感受。
在将声能转换为电能的过程中,电路中的信号电平也分成电压电平与功率电平两种,同样以分贝(dB)表示。
信号电平分贝(dB)参量的运用,使人们管理声波能量有了量化依据。
1.1.5 模拟音频和数字音频
随着科学技术的不断进步,音频信号的传输、记录和处理日益复杂,为此,科学家们逐渐开发出了模拟音频技术和数字音频技术。
1.模拟音频
目前,公认的最早的声音记录设备是1877年爱迪生发明的蓄音筒,如图1-9所示。其基本原理是将声能转换成动能,然后在转动的蜡筒上产生刻痕以记录声音。
这种与声音波形形成1:1比例进行传输和记载的信号表示方式被称为模拟音频,它的波形是连续的,如图1-10所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0017-0015.jpg?sign=1740080230-0CfdnnD9wzDwsVwv0PVWehVO905JhrCu-0-679eaf7a11e09bfb7a350c0848124183)
图1-9 爱迪生发明的蓄音筒
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0017-0016.jpg?sign=1740080230-PnXqVmEgyx39bxXWkqSloZ12Xr0xUt7P-0-18f4e4b9ccb4d72b52ebb9e7c749aa86)
图1-10 模拟音频具有连续的波形
20世纪初科学家发明了磁性录音方式,该方式先将声能转换成电能,然后将电信号转换成磁信号记录下来。
模拟音频技术一直沿用至今,它反映了真实的声音波形,但在记录、编辑和传输时受到技术本身的限制,主要缺点有动态范围小、信噪比差、音频信号编辑不方便,而且设备价格比较高。为了克服模拟音频技术的诸多缺点,数字音频技术应运而生。
2.数字音频
20世纪20年代,美国贝尔实验室的科学家奈奎斯特通过研究发现,根据人类听觉的特征,只要采样率是原始信号最高频率的两倍就可以将声音真实地还原出来,这就是奈奎斯特定理。奈奎斯特定理为将声音从模拟音频转换为数字音频提供了理论依据。
数字音频就是将连续变化的声音信号以固定的时间间隔进行采样,然后将其转换为可被计算机识别的二进制代码并以相应的编码方式进行记录的一种技术。
与模拟音频相比,数字音频记录的波形是离散的,如图1-11所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0017-0017.jpg?sign=1740080230-09ME9hRrqMxybODy7WCz8b5v58vSxJ0p-0-097d4d2d365234a5863e691711618628)
图1-11 数字音频具有离散的波形
数字音频技术提高了声音记录过程中的动态范围和信噪比,保证了声音的复制与重放无损,提高了传输过程中的抗干扰能力,使声音在编辑处理及与其他媒体结合时更加方便。因此,数字音频技术逐渐成为当前声音处理领域中的主流技术。
经验
在音频信号的录制和编辑过程中,模拟音频的输出电平可以设置得尽量大一些,这样可以提高信噪比。但数字音频的输出电平一旦过载将产生无法修复的数字噪声,因此数字音频的输出电平要严格控制,避免达到满刻度。
1.1.6 数字音频的采样与量化
模拟音频转换为数字音频时,需要进行采样和量化。根据对音质的要求和音频设备的性能,可以采用不同的采样率和量化精度。
1.采样率
采样率是指每秒的音频被分解成多少数据样本,它决定了数字音频的频率范围。采样率越低,数字音频的频率范围越窄;采样率越高,数字音频的波形越接近于原始音频的波形,其频率范围越宽。不同采样率的波形对比如图1-12所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0018-0018.jpg?sign=1740080230-VsCFdgz8P8s9c0zcnpcf3m5J6Xu3FUak-0-048e28c6b6cc2e76e5e4cfae74888172)
图1-12 不同采样率的波形对比
人耳可以听到的声音的频率范围为20Hz~20kHz。实际上,在录制和播放时要想高质量地还原波形,需要使用超出人类听觉最高频率两倍的频率进行采样。CD标准采取44.1kHz的采样率正是基于这个原因。现代高质量的数字音频的采样率高达192kHz,有时甚至更高。常用的数字音频采样率对应的品质、频率范围对比如表1-1所示。
表1-1 常用的数字音频采样率对应的品质、频率范围对比
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0018-0019.jpg?sign=1740080230-igkJOA3t572bNvXBmZ09I9rtMk5FAHdq-0-1f07b7161f1f37f8f278f5ce4f557353)
2.量化精度
量化精度也称为量化比特或位深度,它决定数字音频的动态范围。动态范围是指音频系统记录与重放时最大不失真信号与系统本底噪声之比的对数值,单位为分贝(dB)。当进行音频采样时,较高的量化精度可以提供更多可能的振幅值,从而产生更大的动态范围和更高的信噪比,提高声音保真度。
一般来说,数字音频采用16bit(位)的量化精度是最常见的,但目前高质量的数字音频系统已经使用24bit~32bit的量化精度。而有些对音质要求较低的场合,如网络电话,也可能使用8bit的量化精度。不同量化精度对应的动态范围如图1-13所示。
![](https://epubservercos.yuewen.com/1892AE/26961350907110706/epubprivate/OEBPS/Images/figure-0018-0020.jpg?sign=1740080230-KqS4LTMOSLM12riYlhjIYQ7PFEDjfi6v-0-a88dde8dcd98f5178fbf753e5e996dcd)
图1-13 不同量化精度对应的动态范围
1.1.7 数字音频的编码与压缩
为了便于在计算机上存储、处理,以及在网络上传输经过采样和量化后的音频数据,还必须按照某种要求与格式将数据进行编码和压缩。
1.编码
目前采用的编码方式有多种,脉冲编码调制(Pulse Code Modulation,PCM)是一种把模拟信号转换成数字信号的最基本的编码方式,它将信号的强度依照同样的间距分成若干段,然后用独特的数码记号(通常是二进制)来编码。
经过PCM编码后产生的数据量是巨大的,如一张650MB的CD光盘通常只能存储10~14首时长为5min左右的歌曲,如果是5.1声道信号,则1h的音乐需要1.62GB的存储空间,这远远超出了CD的容量。这么大的数据量对于音频的存储和传输都造成了困难,因此需要对采样和量化后的数字音频信号进行压缩。
2.压缩
压缩编码的方式包括有损压缩和无损压缩。无损压缩主要是去除声音信号中的“冗余”部分,将相同或相似的数据根据特征进行归类,用较少的数据量描述原始数据,达到减少数据量的目的。有损压缩指利用人耳的听觉特性(主要指频率掩蔽和时间掩蔽特性),有针对性地简化不重要的数据,达到减少数据量的目的。采用有损压缩方式压缩的数据不能完全复原,会丢失一部分信息。有损压缩格式和无损压缩格式各有利弊,无损压缩没有信号损失,音质好,转化方便,但是压缩比不高,占用空间大,需要硬件支持。而有损压缩虽然在音质上略逊于无损压缩,但压缩比高,节省存储空间,也便于传输。
压缩编码的基本指标之一是压缩比,它是指同一段时间间隔内的音频数据压缩前的数据量与压缩后的数据量之比。压缩比越高,丢失的信息越多,信号还原时失真程度也越高。压缩的目的是减少数据量与提高传输率,当数字音频应用于通信与网络时,还受着通信信道带宽的制约。因此,在进行编码时,既希望最大限度地减少数据量,又希望尽可能不要对信息造成损伤,达到较好的听觉效果。两者是矛盾的,实际操作时只能根据不同信号的特点和不同的需要折中选择合适的数字音频格式。
根据不同的编码压缩方式,数字音频形成了不同的计算机数字音频文件格式。无压缩音频格式有WAVE、 CDA、AIFF等;无损压缩格式有APE、FLAC、LPAC、WavPack、WMALossless、AppleLossless等;有损压缩格式有MP3、OGG、WMA、ACC、VQF、ASF等。
1.1.8 音频的声道制式
无论是模拟音频技术还是数字音频技术,音频信号在传输、记录、编辑处理的过程中常常使用多个音轨。为了使其信号在用户终端能得到正确的重放,音频信号的最终形态分为单声道(单耳声)、双声道(立体声)、多声道(环绕立体声)3种标准制式。
1.单声道
单声道也称为单耳声,它没有相位和方位感,左右两个音箱发出的声音完全相同,因此听者会感觉单调,基本没有空间感。
2.双声道
双声道利用了双耳效应,重放时左右两个音箱发出的声音的相位和声强不完全一样,它可以还原真实声源的空间方位,所以也称为立体声。通常情况下,相同时长的双声道信号,其数据量和文件大小是单声道信号的两倍。
3.多声道
多声道也称为环绕立体声,指声音把听者包围起来的一种重放方式。它除了保留着原信号的声源方位感外,还伴随产生围绕感和扩展感。在聆听环绕立体声时,听者能够区分出来自前左、前中、前右、后左、后右等不同方位的声音,逼真地再现声源的直达声和厅堂各方向的反射声,具有更为动人的临场感。多声道信号经过特殊的编码后可以成为双声道信号,重放时通过解码再还原成5.1声道。现在常用的多声道为5.1声道,常见的数字多声道/编解码技术包括Dolby AC-3、Dolby Pro Logic、DTS、THX、SDDS、SRS等。
提示
无论有多少声道,如果它们的信号波形完全一样,则实质上还是单声道。
1.1.9 数字音频软件Audition
数字音频的制作、编辑、处理工作必须要通过数字音频软件来完成。2003年,Adobe公司收购了专业音频编辑软件Cool Edit Pro,并将其更名为Audition,全称为Adobe Audition。2007年,Adobe公司发布了Audition 3.0,有英语、法语、德语、意大利语、日语、西班牙语等语言版本。2013年, Adobe公司将版本系列改为CC,截至本书编写时,系列已有9个版本,分别是CC、CC 2014、CC 2015、CC 2017、CC 2018、CC 2019、2020、2021、2022。截至本书编写时,系列安装包都内置了简体中文语言。
Adobe Audition CC提供了全新的、直观的、客户化的界面,集专业数字音频录音、控制编辑、效果处理、多轨混音、母带处理等功能于一体,支持VST3插件、AU插件、ASIO驱动及硬件控制器等。控制器设备通过USB接口连接到计算机,提供完整的传输控制,能够实现快速、高效的录音,并提供高质量的触控敏感型电动衰减器以实现衰减和自动化的写入。Adobe Audition CC广泛支持各种工业标准音频文件格式,其量化精度可达到32bit,采样率可达到192kHz,从而能够以高品质的声音输出到磁带、CD或DVD中。
Adobe Audition CC可为视频项目提供高品质的音频,允许用户对主流视频格式进行声音编辑、混合和特效添加等操作。它可与Adobe Premiere Pro 和 After Effects无缝连接,也可以将项目直接发送到 Adobe Media Encoder进行渲染和发布。
无论是录制音乐、电台广播,还是为影视、广告配音,Adobe Audition CC中恰到好处的工具均可提供高效率的工作体验,以创造用户所需要的、高质量的、丰富而细微的音响效果。