5.8 语音感知
这里我们不细谈语音感知中关于音素、音节、单字等方面的知识。中文的语音感知和英文有很大不同。感知语音学是研究语言感知的学科。语音由说话人说出,成为言语波,通过空气传到听话人耳中,经过听觉机制、神经系统理解语音含义。广义地说,上述全过程都是言语的感知过程。听觉的研究属于生理学方面,神经系统的研究属于感知方面。语言的感知与语言学、语音学有密切关系,因此成为一门独特的学科[1]。语言是人类最自然的交互方式。计算机发明之后让机器能够“听懂”人类的语言、理解语言含义并能做出正确回答,就成为人们追求的目标。这个过程主要采用了三种技术,即自动语音识别(Automatic Speech Recognition,ASR)、自然语言处理(Natural Language Processing,NLP)和语音合成(Speech Synthesis,SS)。语音识别技术的目的是让机器能听懂人类的语音,这也是目前快速发展的一个学科,是汽车语音交互的一个重要组成部分。
人类在语音感知的过程中,和文字语言一样,同时采取由下至上的方法(识别文字和语音的元素)和由上至下的模式(通过应用场景和上下文来“猜测”可能的文字或语音)。在自然语言处理方面,由上至下的模式对语言的理解是很重要的一环。
在人与人语言交流的过程中,除了语言、语音本身传达的信息之外,还有其他因素对语言交流起到很大作用:1)口腔的运动。对于听力有问题的人,唇读起到很大作用。其实对于正常人来讲,唇读对语音的理解也起到很大作用,它丰富了我们所听到的语言,通过生活中与人面对面交流的不断实践,它已经成为我们“听”话的一部分。试想,当你在看电视剧时,配音演员的声音与演员的口型没有对上,你会觉得很不舒服,甚至会干扰你对听到内容的理解。2)非语言的暗示。这些包括了我们讲话时的手势、身体姿势及面部表情等。3)歧义性。这里是指在两个人或多个人交流时,听者的面部呈现出困惑和不解的表情,使得演讲者适当地调整自己的讲话,或者对让人困惑的内容做进一步解释。4)对交流的内容有共同的背景知识。