1.1 多媒体技术基本概念
1.1.1 媒体和多媒体
1.媒体
媒体(Media 或Medium)即媒介、媒质,是承载信息的载体,在计算机领域有两种含义:一是指存储信息的实体,如磁带、磁盘、光盘和半导体存储器;二是指信息的载体,如文本(Text)、音频(Audio)、图形(Graphic)、图像(Image)、动画(Animation)和视频(Video)等。
(1)媒体的分类
按照国际电信联盟远程通信标准化组ITU-T[原国际电报电话咨询委员会(CCITT)]的定义,把媒体分为如下5大类。
1)感觉媒体(Perception Medium)。感觉媒体是直接作用于人的感官,使人能直接产生感觉的一类媒体,如视觉、听觉、触觉和嗅觉等。
2)表示媒体(Representation Medium)。表示媒体是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体,指信息的表示形式,其目的是更有效地将感觉媒体从一地向另外一地传送,便于加工和处理,如声音、图像、视频、运动模式等。
3)表现媒体(Presentation Medium)。表现媒体是媒体传输中的电信号与媒体之间转换所使用的一类媒体,又分为两种:一种是输入表现媒体,如键盘、鼠标、话筒、扫描仪和摄像机等;另一种是输出表现媒体,如显示器、打印机、扬声器、投影仪等。
4)存储媒体(Storage Medium)。存储媒体是存储数据的物理设备,如磁盘、光盘等。
5)传输媒体(Transmission Medium)。传输媒体是传输数据的物理设备,是通信的信息载体,如光缆、电缆、电磁波和交换设备等。
(2)常见的表示媒体
多媒体技术中研究的媒体主要是表示媒体,因为作为多媒体系统来说,处理的主要内容还是各种各样的媒体表示和表现。媒体可以分为视觉类媒体、听觉类媒体、触觉类媒体、嗅觉和味觉类媒体。目前嗅觉和味觉类媒体在计算机中尚不能方便实现,将在虚拟现实(Virtual Reality,VR)系统中特殊研究,因此在多媒体系统中经常见到的表示媒体主要包括如下几类。
1)视觉类媒体。视觉类媒体包括位图图像、矢量图形、动画视频和符号等,它们是通过视觉来传递信息的。
位图图像是一种对视觉信号进行直接量化的媒体形式,反映了信号的原始形式,是所有视觉表示方法的基础。根据量化的颜色深度的不同,又分为二值和灰度(彩色)图像两大类。
矢量图形是对图像进行抽象化的结果,反映了图像实体最重要的特征,如点、线、面等。
动态图像又称视频,是若干连续的静态图像在时间轴上不断变化的结果,视频的表示与图像序列、时间关系有关。如果单帧图像是真实图像,则为动态影像视频;若单帧图像是计算机生成的真实感图像,则为三维真实感动画;如果在连续过程中变化的是图形,则是二维或三维动画。
符号是人类对信息抽象的结果。符号可以表示数值、事务或事件,也可以表示语言。由于符号是人类创造出来表示某种含义的载体,所以它与使用者的知识有关,是比图形更高一级的抽象。必须具备特定的知识,才能解释特定的符号,才能解释特定的文本(如语言)。符号是用特定值表示的,如ASCⅡ码、中文国际码等。文本是具有上下文相关特性的符号流。
此外,还有其他类型的视觉媒体形式,如用符号表示的数值、用图形表示的某种数据曲线、数据库的关系数据等。
2)听觉类媒体。听觉类媒体包括波形声音、语音和音乐等,是通过听觉来传递信息的。
波形声音已经包含了所有的声音形式,因为可以把各种声音都进行采样量化,并恰当地恢复出来。波形声音是自然界中所有声音的拷贝,是声音数字化的基础。但人说话的声音不仅是一种波形,而且还具有内在的语言、语音学内涵,可以经由特殊的方法提取,即进行一次抽象。所以常把语音作为一种特殊的媒体。
音乐与语音相比形式就更为规范一些。事实上,音乐就是符号化了的声音,这种符号就是乐曲,但音乐不能对所有的声音都进行符号化。乐谱则是转变为符号媒体形式的声音,表示比单个符号更复杂的声音信息内容。就计算机而言,MIDI是一种十分规范的媒体形式。
3)触觉类媒体。触觉类媒体就是环境媒体,人的皮肤可以感觉环境的温度、湿度,也可以感觉压力,身体可以感觉振动、运动、旋转等,这都是触觉在起作用,都可以作为传递信息的媒体。触觉在人类的信息交流中同样起着十分重要的作用。现在在多媒体系统中已经把触觉媒体作为一种重要的媒体引入到了实际系统中,特别是模拟类应用,这种对实际环境的模拟,实际上就是在信息交互的通道上更前进了一步,使人与环境的信息交流更充分。发展到虚拟现实系统中后,这种媒体的应用形式会更加复杂。
在触觉类媒体中,指点是最常见的形式,包括直接指点和间接指点。通过指点可以确定对象的位置、大小、方向和方位,执行特定的过程和相应操作。为了与系统交互,系统必须了解参与者的身体动作,进行位置跟踪,包括头、眼、手、肢体等部位的位置与运动方向。系统将这些位置与运动的数据转变为特定的模式,对相应的动作进行表示。而力反馈与运动反馈是由系统向参与者反馈的运动及力的信息,如触觉刺激(如物体的表面纹理、吹风等)、反作用力(如推门的门重感觉)、运动感觉(如摇晃、振动等)及温度、湿度等环境信息。这些媒体信息的表现必须借助一定的电子、机械的伺服机构才能实现。
(3)媒体的性质
1)各种媒体的特点。没有任何一种媒体在所有场合都是最优的。每一种媒体都有其各自擅长的特定范围,在使用时必须根据具体的信息内容、上下文和使用目的,来选择相应的媒体。人在问题求解过程中的不同阶段对信息媒体有不同的需要。相对来说,能提供具体信息的媒体适用于最初的探索阶段;能描述抽象概念的文本媒体适用于最后的分析阶段;而直观信息介于两者之间,比较适合综合。一般来说,文本信息擅长表现概念和刻画细节;图形信息擅长表达思想的轮廓以及那些蕴涵于大量数值数据内的趋向性信息;视频媒体则适合于表现真实的场景。声音与视觉信息可以共同出现,往往适用于作为说明和示意,进行效果的渲染和烘托。同样,运动媒体则反映了用户直接的交互意图和系统所做出的反应。
从信息表达的角度看,媒体数据具有以下性质:第一,媒体是有格式的,也就是说,只有对这种格式进行解释,才能使用这种媒体;第二,不同媒体表达信息的特点和程度各不相同,越接近原始媒体形式,信息量越大,越是抽象,信息量越小但越精确;第三,媒体之间可以相互转换,但可能会丢失部分原始信息,或增加一些伪信息;第四,媒体之间的关系也具有丰富的信息。
2)媒体的空间性质。多媒体信息的空间意义有两种解释。第一种是指表示空间,尤其是指显示空间的安排,目前在大多数研究中指的都是这一类。其中包括每种可视媒体在显示器上的显示位置、显示形式、先后顺序等。对于声音媒体,则安排它在听觉空间中的表现,并确定与哪些可视媒体同步。对触觉媒体目前则很少考虑。显示空间的这种安排主要考虑的是离散的表现。这对于早期零散的信息类型比较合适,它更接近于幻灯的形式,但不适合于更复杂的表现和信息存取。
第二种空间意义是把环境中各种表达信息的媒体按相互的空间关系进行组织,全面整体地反映信息的空间结构,而不仅仅是零散的信息片段。这种空间实际上是由系统通过显示器和其他设备给出一个观察世界的窗口,并将环境的媒体信息进行空间的组织,反映出媒体信息的空间结构。例如,一幅博物馆中雕塑的照片可能会使人联想起这座雕塑的侧面、后面、上面和下面等,也就是有相应的图像衔接这幅照片的周围。随着用户的移动,可以观察到它的所有的信息。这种根据媒体内容确定的空间关系其实就是将信息在空间进行了有序的组织,这就是空间“上下文”关系。这种空间关系在虚拟现实系统的虚拟空间中将会体现得更加明显。
视觉空间、听觉空间和触觉空间这三者既相互独立又需要相互结合。视觉空间的内容通过各种显示器、摄像机采集和表现;听觉空间通过麦克风、扬声器等进行获取和再现;触觉空间的跟踪与反馈则要有相应的采集和伺服结构。三个空间相互结合,就可以构成多媒体的虚拟空间信息环境,其中包括三维空间的生成、三维显示、三维声音和自由操纵。
3)媒体的时间性质。媒体的时间也有两种含义。一是表现所需的时间,这是所有媒体都需要的。对于图像、文字等静态媒体来说,它至少需要一定的表现时间,接收者也需要一定的接收时间去接收理解它。对声音来说,没有时间也就没有了声音,声音总是完全依赖于时间的变化,不同时间坐标还会使得声音产生信息的异义。视频信息虽然也要依赖于时间的变化,但它的每一帧都可以单独存在(也就是图像),并且可以表现。触觉媒体也同样与时间密切相关,任何的动作与反馈都要反映时间的相对关系。
第二种时间意义也同媒体的空间一样,媒体的时间也可以包含媒体在时间坐标轴上的相互关系。例如,同一地点的照片,由于时间不同,表现出来的空间效果也不同。这种时间关系可以是周期性的(如春夏秋冬),也可以是非周期性的。时间关系还存在于同步、实时等许多方面。空间和时间组成了一个三维的时空坐标系统。
4)媒体的语义。各种媒体的信息在最低层次上都是二进制位流。如果仅仅作为信息的简单通道,系统不必了解媒体的语义;但如果要多媒体系统具有对媒体进行选择、合成等方面的能力,就必须赋予媒体的语义知识,从而使得系统能在媒体之上对媒体进行比较、选择和合成。在获得媒体的语义过程中,抽象起着十分重要的作用。这种抽象是复杂的,而且与任务有关。通常包括若干抽象层,每一个抽象层都包含着与具体的任务和问题域相关的模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,而数据量则递减。语义就是在从感官数据到符号数据的抽象过程中逐步形成的。人的自然通信具有一种信息的轮廓与细节相分离的特征,通常轮廓是直接由有形媒体传递的,而细节则间接地经由上下文以及背景来传递,由此实现通信的高效率。
对不同媒体来说,媒体的语义是处于不同层次上的。抽象的程度不同,语义的重点也就不同。对文本来说,文本的语义关键是人对语言的理解,而不是对字符的解释;而图像的语义更多的是在对它的抽象上,如轮廓、颜色和纹理等。如何利用这些语义,是许多多媒体系统必须解决的关键问题。
5)媒体结合的影响。多媒体的作用在很大程度上是媒体之间结合产生的影响。这种结合可以是低层次的,如在显示窗口中提供多种媒体信息片段,并将视觉、听觉相互结合,造成一种比较适合的媒体表现环境;也可以是高层次的,由多种媒体组成完全沉浸的虚拟空间,但应该如何结合现在还缺乏理论上的指导。媒体之间可以相互支持,也可以相互干扰。从信息理解的角度来讲,多种媒体的合理结合是有利于信息接收和理解的,这种效果反映在理解程度和记忆驻留效果上。据有关资料介绍,由视觉传递的信息能被理解 83%,由听觉传递的信息能被理解11%,由触觉传递的信息能被理解3%,其余的不到4%。从记忆驻留效果来看,以谈话方式传递的信息,2h后能记住70%,72h后能记住10%;以观看方式传递的信息,2h后能记住72%,72h后能记住20%;而以视听并举的方式传递的信息,2h后还能记住85%, 72h 后能记住 65%。显然,视觉和听觉的相互影响,起到了关键的作用。这就是所谓的“感觉相乘”效应。
6)隐喻。在与多媒体系统交互的过程中,人们所依据的是关于这种交互的概念模型,也称心智模型(Mental Model)。这种概念模型的建立往往需要培训和经验,不易于被用户所接受。一种较好的方法是模拟人对其他事务的知识和技能,把它们挪到多媒体系统中使用。媒体的多样性为这种模拟提供了一个很好的基础,这种模拟,就是隐喻(Metahpor)技术。早期用表格、卡片、打字机、字纸篓、信箱等模拟人的办公过程,到最终要在多媒体的人机交互过程中将机器完全隐去,这就是虚拟现实空间了。
2.多媒体
一般所说的多媒体就是指表示媒体,即文本、音频、图形、图像、动画和视频等媒体信息。多媒体(Multimedia)是融合两种或两种以上表示媒体的一种人机交互式信息交流和传播媒体,是多种媒体信息的融合。
多媒体的实质是将自然形式存在的各种媒体数字化,然后利用计算机对这些数字信息加工或处理,以一种友好的方式提供给用户使用。
人类对于信息的接收和产生主要在五个感觉空间内:视觉、听觉、触觉、嗅觉和味觉,其中视觉约占65%,听觉约占20%,触觉约占10%,味觉、嗅觉等其他感觉约占5%。借助于这些多感觉形式的信息交流,人类对于信息的处理可以说是得心应手。然而计算机以及与之相类似的设备都远远没有达到人类的水平,在信息交互方面与人的感觉空间就相差更远。多媒体就是要把机器处理的信息多维化,通过信息的捕获、处理与展现,使其在交互过程中具有更加广阔和更加自由的空间,满足人类感觉空间全方位的多媒体信息需求。
目前,多媒体只利用了人的视觉和听觉,虚拟现实系统用到了触觉和嗅觉,而味觉还未集成进来。随着多媒体技术的进步,多媒体的含义和范围将进一步扩展。