02 声音的本质 The Nature of Sound
声音的两面
森林里有一棵树倒了,但倒地声没有被人听见,这算是发出了声音吗?“声音”既是一种物理现象,又是一种感觉,这种双重意义给了刚刚的问题一个明确的答案——树倒的时候发出了、也没发出声音。声音的物理和感官方面的关系是复杂的,因为声音给我们留下的许多印象与它的物理参数有关,但又不能仅仅简化为物理参数。比如,高频音通常听起来音调更高,更大的声音听起来也更响亮。此外,从警报声到风笛声,从摇篮曲到狮子的吼叫声,许多声音对我们产生了情感上的影响,而这些影响与它们物理参数之间的关系却非常模糊。
声音在物理方面远比在情感方面更容易被人理解,所以我们将从物理学开始讲起。
压力波
声音通常是由物体的循环运动发出的,比如:扬声器的膜片不断地跳动,声带之间的间隙时而缩小时而扩大,或者吉他弦来回振动。正是这些运动向周围介质(固体、液体或气体)的传播及其在介质中的传播过程构成了声音。在某些情况下,运动的就是介质本身,比如有人在瓶口上方吹气时瓶颈里的空气就是如此。非运动源包括突然释放的热能(如爆炸或火花)和快速振荡的热源。
当扬声器的膜片运动时,膜片产生的声波具有和电信号相同的变化规律。每当膜片向外移动时,它同步挤压前面的空气分子,使它们彼此靠近,从而形成一个高压区。这些分子接着对邻近的分子施加压力,使它们也依次靠得更近,因此一个紧密结合的分子形成脉冲(压缩波)穿过介质,接着,又因为膜片向内运动而产生一个低压区(稀疏波)。
然后膜片再次向外移动,产生第二个脉冲。膜片在1秒内由内向外移动的频率决定了声波的频率(单位是赫兹,缩写为Hz)。最简单的声波就是纯音,例如音叉发出的声音。空气压力随音叉距离变化的波形是一个正弦波,波的瞬时形状如图1所示。
图1 声波压力示意图
相邻的两个波峰(或波谷)之间的距离定义为声波波长(λ)。声音以速度v在空气中传播,在室温下速度约为每秒340米。频率(f)由方程f=v/λ给出。空间中某一质点的压力随时间变化的曲线图也是一个正弦波,所以我们其实也可以将图1的横轴标记为“时间”。
类似图1这样的图像十分常见,而且通过这样的图像我们很容易想象出声波的某种可视图,事实上许多书就是以这种方式来使用这些图像的。然而,实际上,声波不像海浪那样有上下(横向)运动,唯一的运动是分子交替地从声源向外或向声源运动,就像牛顿摆[1]里的球一样。这种波被称为纵波,如果我们能看到空气分子的话,它们看起来就如图2所示的样子。
图2 从分子角度看声波
如果连续的声音起源于一个点,那么它就会像膨胀的球体一样向四面八方传播。如果探测区域很小(如麦克风隔膜或鼓膜),距离声源只有几米远,那么声球的曲率可以忽略不计,此时声音以平面波的形式传播。即使声源有一个特定的方向(就像大多数扬声器一样),只要膜片厚度大于声音的波长,声音仍然会以球状形式传播。而波长短的声音在一定程度上保持其原始方向,在足够高的频率下它就可以形成声波束(我们将会在第6章谈到)。
声音的载体
声速只取决于介质的弹性和密度(见第1章)。在空气中,声速随湿度和温度的增加而增大[2],但这仅仅是由于这些因素引起了空气密度的变化。表1给出了声音在一些介质中的传播速度。
表1 不同介质和条件下的声速
由于空气中的声速随着温度的升高而增加,而在白天,海拔较高处的空气比近地面处的空气温度高,所以高处声音传播的速度也更快一些。这种速度的增加使声音在较热的空气中向下弯曲(折射),并在一定距离内返回地面,如图3所示。由于折射效应,有时声音在很远的地方比在近的地方听得更清楚。
图3 当离地面较近的空气比较高的空气温度低时声音的传播
折射也解释了为什么在迎风情况下人们很难听见声音。在迎风情况下,风会使声波的传播速度稍微变慢一些,越往高处风速越快,声波速度降低得就更多一些,所以离地几米高处的声波的传播速度相对来说要更慢一些。声音从低速区域折射到高速区域,因此声波将远离地面和人的耳朵,朝上方传播(见图4)。
图4 芭芭拉可以听到艾伦的声音,但听不到克里夫的声音
无论怎么操作膜片,我们都无法使声音在膜片周围的空气中传播得更快。振动越快,产生的压力脉冲就越接近,它们到达某处(比如说鼓膜)时的频率就越高。也就是说,声音的频率会上升。如果一个人试图通过加快膜片向内和向外移动的距离来更用力地推动空气,那么脉冲中的压缩量和稀薄度就会增加,从而导致声压更高,听起来声音也就更大。如果我们强行让膜片的运动速度超过介质中的声速,那么在下一个脉冲形成时,前一个脉冲还没有来得及离开膜片,因此,它们就堆积成一个单一的、被称为冲击波的极高压脉冲,这也是音爆和响鞭声的成因。
快速地移动膜片并不是唯一可以用来增加声音频率的方法。如果扬声器(或其他声源)迅速接近你或你迅速接近它,压力脉冲就会以更高的频率到达你的耳朵,因为每一个脉冲都比它前面的脉冲在离你更近的地方开始向你传播,从而导致声音的频率上升。而当声源从你身边经过后,脉冲就会以更长的间隔到达你的耳朵,因为每一次脉冲的传播距离都比前一次要长,相应地,频率也会因此下降。这就是著名的多普勒效应。当你身边开过一辆超速的摩托车或当你听到跟在摩托车后面呼啸而过的警车的鸣笛时,就会注意到多普勒效应(见框2)。
与光类似,如果反射表面光滑且坚硬,声音就像光从镜面反射一样能够反射形成一个声源的像。所以如果你位于声源和反射表面正中间的某个地方,你从两侧听到的声音是差不多的(反射的一侧声音会稍小些)。当然,“光滑”是一个相对的概念,它意味着“表面凸起的大小比波长的长度小”。由于3千赫的声波波长比黄色光的波长要长100万倍,所以即便是粗糙如混凝土一般的表面也可以成为很好的声波反射镜。凹面声波反射镜能将反射的声音聚焦。例如,在第一次世界大战期间,英国南部海岸建造了这种凹面混凝土声波反射镜,将飞机靠近时的声音聚焦到正在监听的士兵耳朵里。当声音在两个或两个以上的曲面反射器之间回响时,可能会产生一个耳语廊[3],就像伦敦圣保罗大教堂的长廊一样。
声音能在任何两种介质之间产生界面反射,无论是在空气和混凝土、水和空气,还是地球上不同的岩层之间。反射声音的多少取决于两种介质声阻抗的差值,而声阻抗又取决于介质的密度和声速。声阻抗(见框3)与电阻相似,它测量的是声音在介质中传播的困难程度。它是声音诸多应用的关键。例如,软橡胶表面会吸收声音并将其转化为热量,因为软橡胶具有极高的声阻抗,潜艇上的隐形涂料就是利用了这一原理。但糟糕的是,橡胶的柔软程度与温度有关,所以,在20世纪80年代末,冷战时期的潜艇从北大西洋重新部署到海湾时,由于水温随地域变化而逐渐升高,使得潜艇无处遁形,从而引发了一系列相关研究的热潮。
声音可以通过声透镜聚焦。声透镜通常由丙烯酸塑料制成,其工作原理是当波从一种介质传播到另一种介质时,只要它以一定角度入射介质之间的界面,就会发生折射。声波被折射的角度取决于它在两种介质中的速度之比,这就是斯涅尔定律(见框4)。
通常,声音比光更受关注的一个效应是声音能够在墙角和墙壁上弯曲,并在穿过一个开口后扩散开来,这种现象被称为衍射或散射(见图5)。
图5 衍射
波长越长,弯曲程度就越大。所以如果在声源(比如说一个乐队)和听者之间建一堵高墙,低音可以通过衍射效应绕过高墙返回地面,而高音则不能被听到(见图6)。这种消声效果对帮助我们评估户外常见声源的距离而言,是非常有用的线索。
图6 不同波长产生的衍射
当光线落在一系列间隔约为单个波长的平行线、条纹或凸起之上时,它就会发生衍射现象。由于波长较短的光将产生更大角度的衍射,这样的衍射光栅就会把白光分解成它的组成色,例如CD的背面就是通过这种方式将阳光衍射成彩虹色。由于纯音是一系列压力增加的有规则的“条纹”,它也可以充当衍射光栅,通过这个光栅散射的光波,长度约等于条纹之间的距离(该距离是声音波长的一半)。通常这里涉及的介质是晶体固体,如熔融石英。这种声光效应,即利用声波散射光,在水下和空气中都可被用作非摄动测量和成像工具(见图7)。
图7 声光效应
当来自多个声源的声音相遇、相容混合时,就形成了一个由嘈杂和安静区域组成的三维模式,称为干涉模式。安静的区域形成于一个声源的疏部与另一个声源的密部相遇的地方,这就是相消干涉;当疏部与疏部相遇,或者密部与密部相遇时,嘈杂的区域就出现了相长干涉(见图8)。
图8 相长干涉和相消干涉
干涉在立体声产生和噪声消除中发挥了重要的作用。它引入了声波的另一个表征参数——相位,即声波在空间和时间的某一特定点上的压力的高低。相位只在声波相互作用时才真正起作用。在上面的例子中,密部相互重合的一对声波(因此形成一个较嘈杂的区域)称为同相,而那些不重合的声波则处于异相。当波最大限度地偏离相位时,我们说它们处于反相。人类的听觉系统是无法识别相位的。
声音的能量
定义和测量声音的量的方法有好几种,每种方法适用的领域都不相同。如果测量的内容是听力或音乐,那么声压是最好的选择,因为它是与响度最直接相关的参数(尽管也不是很简单,但请继续读下去)。但是,在讨论声源的效率时,人们可能希望知道每秒有多少能量从声源中流出,即声音的能量。要描述特定声场对物体的影响,我们感兴趣的参数是声强,即每秒打在该物体1平方米面积上的声音能量。音量是一种定义不太严格的度量方法,用于标记音频设备,但旨在模拟响度。
可听频率范围内的声波在通过空气时的吸收损失很少(每100米约0.25分贝/6音分,但随天气条件变化很大)。声音会随着距离增加而消失的主要原因是它们可以自由地向许多方向扩散,所以它们的能量会随着扩散越来越低,同时占据的体积越来越大。如果声源悬浮在自由空气中,其声音可以向各个方向传播(球面扩散),则声压与接收者到声源的距离成反比。也就是说,如果从声源到测量点的距离加倍,声压就会减半。
声音的强度下降得比这还快,它与距离的平方成反比。因此如果我们假设从声源到测量点的距离加倍,声音的强度就会下降1/4(1/22);如果距离扩大为10倍,则强度下降到之前的1/100(1/102)。但如果声源在地面上,则声波呈半球面传播(见框5),声压和强度的下降率变为上述情况的一半。换句话说,当距离加倍时,声音的强度大约下降到原来的一半。不过也有例外情况,当地面是一个完美的反射器时(一块大理石地板可以近似于完美的反射器),强度的下降会比这更快,这是由于反射介质吸收导致能量损失。声功率只取决于声源,所以在任何距离上都是一样的。
自然界中基本上不存在纯音,最接近纯音的可能是鸟类的歌声。真实声音的波形看起来各不相同,图9显示了基频相似的不同声音的压力变化。
图9 不同声音的波形
困难的分贝
声音是最早被人类理解的一种能量形式。早在公元前300年,我们就已经知道它是可以穿过空气和水的某种形式的物理变化。但很久以后,声音最明显的特征——响度,才在一定程度上被真正量化。但是,直到2000多年后才出现的这种量化,并不能令人满意。
到目前为止,最广泛使用的量化声音的度量是分贝(dB,见框6)。如果两个信号在声压上相差1分贝,那么它们的声压比值约为1.2∶1,这恰巧是我们在理想条件下能听到的最小差异。10分贝的差异相当于声压比为3∶1, 100分贝的差异相当于声压比为100 000∶1。
分贝是1/10贝尔,贝尔这个词由传输理论中最常用的三个字母(β,ε和l)结合而成,并且也是向亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)[4]致敬。分贝并不是单位,它其实是比值,所以它可以描述一种东西比另一种强大多少。如果你愿意,你可以用它来比较一对加热器的输出,但这并不能告诉你它们实际上到底有多热。
要用分贝来描述一个设备的声音,重要的是要知道你在和什么进行比较。对于空气中的声音,我们将其与某种刚好能被听到的声音(相当于20微帕斯卡的压力)进行比较。当声音的大小以这样的参考水平给出时,就会加上“级”字,例如,声压级(Sound Pressure Level, SPL)。
所以,0分贝的声音是你能听到的最小声音的“1倍大”(也就是说,和你刚好能听到的声音一样大),1分贝大约是12倍,2分贝是26倍,以此类推。所有的声学家都满意这个解决方案吗?不,他们并不满意。超声波工程师并不在意他们的超声波比“你恰好能听到的声音”大多少倍,反正本来也没有人能听到。他们喜欢的是功率,因此他们测量数据的单位是瓦特。与此同时,水下声学家理所应当地问道:“那么听力的阈值呢?当你的耳朵灌满了水,头上戴着橡胶耳机,这种阈值有什么意义呢?”又或者:“如果你是鲸鱼呢?这种阈值又有什么意义?”所以,他们的分贝建立在1微帕斯卡的参考压力上,因为这很好记,也很容易测量。于是现在我们有两种“分贝”,一种用于水中,另一种用于空气,这两种分贝对于相同的声音会给出不同的值。只要每个人都记得他们所使用的分贝的参考水平是多少就不是什么大问题,然而糟糕的是人们并不记得。
还有一个问题。很少有人关心一个物体究竟产生了多少声音,我们想知道的只是它的声音听起来有多大。声音听起来有多大取决于物体离我们有多远,这似乎是显而易见的,但这意味着我们不能说汽车喇叭的声压级是90分贝,只能说它在一定距离上是这个值。通常情况下,即使是那些在教科书中非常流行的简易分贝图表也会出现这种错误,例如声称风钻的声压级为100分贝,而实际上是“如果在10米的距离(或其他距离)处测量,声压级为100分贝”。不难看出这种“偷懒”的表述到处都是,比如“安静的办公室”,我们知道它指的是你工作时安静的办公室,而不是走廊尽头或其他城镇的安静办公室。
还有第三个问题,即一个声源可能以任意一个、几个或多个频率产生声波。让我们暂且假设一下,声音的来源是一个扬声器,它的效率非常高,能把输入的所有电能都转换成声音。而且我们假设它有一个频率控制器,但没有音量旋钮。如果我们测量每秒从扬声器中流出的总声能(功率),同时改变频率,那么功率当然会保持不变。同样地,扬声器的声压级在一定距离上会保持不变,这点用一个麦克风就可以证明(假设它在所有频率上都具有相同的灵敏度)。
然而,这和你的耳朵告诉你的完全不同。如果扬声器在20赫兹时刚好可以听到,它的音量会随着频率的增加而提高,直到大约4千赫时,它的音量会(非常粗略地)提高200倍。在更高的频率下,它会再次变得安静,最终在8~20千赫之间消失不见。你到底听不到什么频率的声音,取决于你的年龄,以及你在过去几十年里有没有好好保护你的耳朵。
在实践中,声学家对麦克风所组成的电路的响应进行加权,从而使系统表现得像耳朵一样,也就是对4千赫左右的频率最敏感。频率加权麦克风是声级计(Sound Level Meter, SLM)的核心。实际应用中有很多不同的权重可供选择,甚至可以选择适合狗的权重。目前最受欢迎的是A权重,它近似人耳在中等音量下的反应。因此,对人类重要的分贝通常是A权重的,记为dBA,其全称是“A级加权声压级(以分贝记)”。
声级计会受声音时长的影响。这很重要,如果一个声音持续的时间短于0.1秒,它听起来就会更安静,因为人的听觉系统会将声音持续时间之内的能量积累起来去感受。
更复杂的是,音量的大小也取决于其来源的性质。例如,人们非常不喜欢飞机的声音,一般来说,他们认为飞机的声音就和实际上要大5分贝的无特征声音一样令人讨厌。相反,人们更喜欢火车的噪声,他们甚至觉得火车声音的烦人程度和实际上低5分贝的无特征声音一样。这些反应如此明确,以至于许多涉及飞机或铁路噪声的规划应用程序将其数字调整了5分贝,这种调整被称为“飞机惩罚”和“铁路奖励”。这意味着,没有任何仪表可以真正测量建筑师、房主、噪声活动家、嘈杂的机器购买者和声学家真正需要知道的东西——音量有多大。
考虑到所有这一切,用高精度声级计测量声压级几乎没有意义。大多数声级计测量10千赫声音的精度为±1.4分贝(称为2类仪表)。即使在实验室工作中,测量精度为±1.1分贝基本上是足够的(由1类声级计提供)。比准确度更重要的是遵守标准测量程序,包括通过与标准测量麦克风的比较来频繁地校准声级计。
尽管响度具有复杂性,而且会根据声源和用户的不同而产生变化,但科学家通过精心选择声音,然后对大量被测者的反应进行调查,大致确定了响度与声压级之间的关系,并在此基础上定义了单位,也就是方(Phon)。方被定义为与1千赫单音的声压级具有相同的值,因此声压级为10分贝的1千赫音调的响度级别为10方。但是一个和10方相同响度的50赫兹声音,其声压级是73分贝,因为我们的耳朵对50赫兹的敏感程度远低于1千赫的声音,一个50赫兹的声音需要比一个1千赫的声音高63分贝才能听起来同样响。
响度只是众多心理声学测量的指标之一,也被称为声音质量参数(此处“质量”指的是“性质”而不是“好坏”)。响度是目前最常用和发展最好的指标,其他的指标还包括锐度(单位是acums)、粗糙度(单位是aspers)、起伏度(单位是vacils)和柴油度(diesel)(柴油度没有单位,不同的汽车只是根据人们认为它们的声音有多“柴油”而进行主观排序的)。从最后一个名字能看出,这些指标主要是由汽车行业开发的,其目的是使门的咣当声、发动机的声音,甚至指示器的声音听起来更有力、男性化、可靠等。原则上讲,如果电子产品和噪声源都能用这些参数来描述的话,对用户是非常有用的。
声音质量这个话题是心理声学学科的一部分,即研究声音的心理效应,它本身可以被认为是现在所说的声音研究的一个组成部分。声音研究涉及各种声音在历史和不同文化中是如何产生和消耗的。关于这类主题的研究工作自20世纪40年代以来一直在进行,而自20世纪90年代初开始,这类研究的数量也在大大增加。
驻波
在声学史上,实现声音的可视是人们不断尝试的目标。在18世纪80年代,恩斯特·克拉德尼(Ernest Chladni)研究了金属板被小提琴的琴弓划过发声时振动的方式。撒在板上的细粉会偏离振动强烈的区域,并聚集在静止的区域。因强烈振动而没有粉末的区域对应于波腹(如图1中的波峰或波谷),而静止且有粉末的区域是节点,即没有压力变化的点(图1中的曲线与轴线相交的地方)。
克拉德尼之所以能够以这种方式“看到”声波,仅仅是因为声波没有在空间中前进。它们是静止的,或者是“停驻的”声波,即驻波。对于驻波,图1只表示波的压力随位置的变化,而不是特定点的压力随时间的变化方式(驻波中任何一点基于时间的压力示意图都是一条水平线)。
这种原理在下面的例子中会展示地更清楚。假设有一根长12厘米的管子,一端开口,一端封闭。如果有人从开口端吹气,管内就会形成驻波。在这类波中,由于空气与闭合端管壁有摩擦,那里的空气无法移动,所以这一点是波节点。最简单的一种驻波是这样的:空气分子离闭合端越远,运动幅度越大,在开口端幅度达到最大(这一点称为波腹)。在这种驻波中,波长的1/4与管长相等,所以它的波长为4×12 = 48厘米。如果你吹得足够用力,管中就会形成一系列其他形式的驻波,每个驻波都有节点和波腹分别出现在管的两端,如图10所示。这些其他波的波长是第一种驻波的简单倍数,这样的一组波被称为谐波。
图10 一端开口管中的驻波
与上述的管子类似,在任意充满液体的腔或任何坚硬的物体里,都存在非常容易被激发的特定波长的声音。这被称为共振模式(或简称为共振),共振的主要模式是可以预测的,因为它们只依赖于尺寸。例如,如果把一根12厘米长的杆子的两端固定,猛击它将产生24厘米波长的声波,以及波长为12厘米、8厘米、6厘米、4厘米的声波,还有所有其他节点间距能达到12厘米[5]的声波,这同样是一组谐波。
一个12厘米长的盒子里的空气或水也会产生上述所有波——在这种情况下,流体的“末端”靠近盒壁,在那里摩擦力阻止了流体的自由运动。盒子还会产生与它的高度、宽度和对角线相对应的波族。
共振是室内声学领域的一个主要研究问题,也是大多数乐器的基础。如果乐器的一端是开放的(比如风琴管),开口的一端就是腹点,其基频的波长会是相同长度的封闭管波长的两倍(实际上波腹在管道的末端之外形成,需要进行末端校正,请参见框7)。
通常,最低共振频率是最强的。然而,如果给一个乐器提供大量的能量,它可能会产生一个八度共振,甚至更高到两个八度。例如,如果吹得足够用力(“超吹”),长笛就可以做到这一点。
共振在我们的生活中随处可见。当你敲击盘子、杯子或叉子的时候它们会发出声响,只要你别把它们握得太紧,否则声音会被抑制住(音叉在紧紧握住的时候仍然可以产生共鸣,是因为音叉有两个相同的尖头叉子且移动方向相反,这样共鸣就在把手处相互抵消,因而没有在把手那里产生振动)。利用共振,我们可以检查陶器是否有裂纹。如果没有裂纹,陶器材料中每一毫米的运动都会紧随相邻毫米的移动,让波通过,就像墨西哥人浪[6]一样,这表明陶器确实是完好无损的。但是,即使是一个非常细小的裂纹也会将相邻区域分开,此处的拖曵和摩擦也会抑制共振,产生反常的“叮当声”。
如果一个力以与该物体的共振频率相同的频率作用在物体上,耦合的效应就会非常明显,因此吉他弦会呼应房间另一端的拨弦声发出声音,或者电视机的一些部件伴随着节目声音突然发出恼人的嗡嗡声。
在声学的几个领域中,一个重要的效应是亥姆霍兹谐振(Helmholtz resonance),任何听过吹瓶口时产生的音调的人都很熟悉这种效应。只要是有开口的空心物体或腔体都可以作为亥姆霍兹谐振器(见框8)。如果一股气流从开口上吹过,一些空气会进入腔体,增大腔内的压力。压力又把空气推出去,就像钟摆一样,让这个空气“过度冲出去”,留下一个轻微的低压环境,这样就会吸入更多的空气,循环往复。这种有规律的循环包含了共振频率的声波。如果把这个频率的声波供给谐振器,它就会发出非常强的声音。
绘制声音
驻波是声波的一个小子集,大多数情况下,波中的高压区和低压区在空间中运动(这种波被称为前进波或行波)。如果你想“看到”行波,就必须记录气压随时间的变化。亚历山大·格雷厄姆·贝尔是第一个尝试这种方法的人。1874年,他设法从一具尸体上弄来一只耳朵,给它涂上油以保持其柔软,并在鼓膜上绑上一根细稻草。稻草的另一端可以在一块带着煤灰的玻璃上画一条线,这样一来,当有人对着这个耳朵大喊大叫时,玻璃就会随之移动。这条摇摆不定的线是声波的第一次记录,这个装置被称为人耳记音器。为了减轻那些需要制作这种装置的人的负担,后来的版本不再使用死人的耳朵,取而代之的是金属振动膜。
然而,记音器对于声波的实际测量并没有什么用处。实际的测量最终由在20世纪30年代开发的阴极射线示波器(cathode ray oscilloscope, CRO)实现。CRO可以设置不同的时基,这样高频的声音就可以在屏幕上传播,而低频的声音则被压缩,于是就可以看到它们的波形,由此可以读出它们的波长并确定它们的频率。
今天,CRO在计算机上被广泛使用。然而,二维图仍然只能显示声音的一些特征。大多数声波的频谱和压力变化都很快,只有在一种叫作声谱图的三维示意图上才能正确地同时显示出来。这种声谱图需要依靠计算机才能生成。在声谱图中,屏幕上方的高度通常代表频率,亮度或颜色代表声压(或强度)。在其他情况下,可以在屏幕上显示三维形状,结果通常类似山脉(见图11)。
图11 声谱图
解码声音
能够看到声音,意味着人们可以对很多与它相关的信息进行定性,也可以对显示结果进行粗略的测量,但是很多时候我们还需要声音的精确定量信息(例如为了消除噪声或改进乐器的设计)。为此,我们需要进行数学分析,这是最广泛和最基本的分析方法之一,是基于约瑟夫·傅里叶(Joseph Fourier)在19世纪所做的工作而产生的。
傅里叶意识到任何周期函数(以稳定速率重复的函数)都可以通过将一系列正弦波(现在称为傅里叶级数)加在一起来构造,他还想出了一种方法来确定这个级数的元素(项)是什么。从数学上讲,傅里叶级数是由一系列正弦和余弦组成的——考虑到余弦只是一个从最大值而不是从0开始的正弦波,所以我在这里只提到了正弦波。如图12所示,三个正弦波就可以近似一个方波。为了使后者的侧边更垂直,必须添加更高频率的音调。方波听起来像咔嚓声,傅里叶分析表明,突然(声级快速增加)的咔嚓声会包含一些非常高频的成分。
图12 用正弦波求和来近似一个方波
傅里叶的原始工作只适用于周期波,但它进一步发展为一种被称为傅里叶变换的方法,可以用来处理非周期波。快速傅里叶变换(fast Fourier transform, FFT)是一种计算信号正弦波分量的高效数学方法。当加入这样的波时,人们就必须考虑它们的相位。在一个波长内,声波的声压从零(与周围空气压力相等)上升到最大值,然后下降到最小值,然后又上升到零。这类似旋转的轮子边缘某一点的垂直运动轨迹,因而相位可以用角度的方式来描述,即从0°开始上升到最高相位的90°,再落回水平位置180°,接着降至最低位置270°,最后回到360°(与0°是一样的)。
所有真实的声音都会随着时间的推移而改变,所以转换成正弦波的过程必须频繁地重复。这种对声音的时变频率分析有许多应用。例如,组成一个人声音的声波的某些参数对那个人来说是独一无二的,因此,这些参数可以作为“声学指纹”(即声纹),并可以由机器进行自动语音识别。
相反,由于每个单词都有独特的发音(除了同音异义词,比如“sew”和“so”),无论由谁来说这个单词,理论上机器都可以自动识别出来。虽然不同的人有发声差异,但某些特定的因素只是略有不同,或者是可以预测的。这也是为什么(在一定条件下)不管说话者是谁,我们都能够识别一个单词的含意。
然而,自动语音识别离完美还有很长一段路要走,主要的问题在于判断一个单词的结尾和下一个单词的开始位置。这个问题很难,试着听自己说“面包和黄油”,你听到的可能是像“brembudder”这样的词[7],没有任何的停顿。人类之所以能够如此容易地识别单词,是因为我们听到的声音模式只是所说内容的表征之一,正如第4章将要解释的那样。
合成声音
由于任何声音都可以被拆分成正弦波,因此任何声音都可以从正弦波合成而来。从声音中生成语音的合成器已经问世多年,而且效果比识别器要好得多。然而,在实践中,通过将预先录制或预先生成的声音片段组合到一起来生成语音通常要容易得多,这是一种被称为语音编码的技术。
目前的电子系统几乎可以合成任何声音,不管它是否原本就存在于自然界中。比如怪异的谢泼德音调(Shepard tone),它是由逐渐降调又渐出的音调组合而成,其间会有更高的音调渐入,然后也开始下降,给人的印象是声音不断下降却又不会下降。然而,通常人们并不需要新的声音,而是需要现有声音的改进版本,例如一场没有噪声的音乐表演。在20世纪60年代,对流行音乐制作人来说最著名的电子产品就是电子琴,其加载的预录元素是流行音乐常用的非语言声音。这种乐器上加载的库中有录制在磁带上的小段声音,演奏者可以迅速用他们想要的频率和音量来播放任何片段。
选择声音:滤波器
最常见又最简单的修改声音的方法是过滤,即使用电子电路或软件删除或减少选定的频率范围。高通滤波器去除低频,低通滤波器处理高频,带通滤波器则同时去除低频和高频。曾经有一种很常见的可变滤波器是图形均衡器,它是高保真音响放大器上的一系列滑块(约七个),可以抑制选定的预置频率范围。简单的“音调”控制同样可以使高(高音)或低(低音)频率变得安静。
各式各样的其他功能也出现在电脑声音艺术家或工程师的工具箱中。例如,有些软件可以添加混响或回声,创造一个人造声景,或在用扬声器播放之前,用这种实时变化的频率改变之前预录的流行歌曲的声音。这是卡拉OK系统的基础,在卡拉OK系统中,歌曲的音调可以被升调或降调,以匹配用户认为最容易唱的方式。
[1] 牛顿摆(Newton's Cradle)是一种由5个紧贴的同样质量和大小的金属小球构成的玩具,当拉起一端的小球使其摆动撞击其他4个时,另一端的小球将会继续摆动,而中间的3个小球保持不动。
[2] 原文为decrease with increasing temperature,疑有误。
[3] 当两个人贴墙站立时,即使一个人只是对着回廊壁窃窃私语,走廊另一端与他遥远相隔的人也可以清楚地听到。
[4] 这里Bel与物理学家贝尔(Bell)的名字谐音且拼写方式相近,故有致敬的含义。
[5] 原文为24厘米,疑有误。例如波长16厘米的声波,不能由文中的长杆生成,但其节点间距可达24厘米。
[6] 球迷在看台上有序地举手站起再坐下。
[7] 这里由于连读现象使得原来三个词的短语“Bread and butter”听起来像一个词。在汉语中类似的例子有“这样子”,由于连读听起来像“酱紫”。