1.2 多媒体通信中的关键技术
多媒体通信技术是一门跨学科的交叉技术,它涉及到的关键技术有多种,本节我们分别对这些技术做简单介绍,其详细内容我们将在后续章节中阐述。
1.多媒体数据压缩技术
多媒体信息数字化后的数据量非常巨大,尤其是视频信号的数据量更大,例如一路以分量编码的数字电视信号,数据率可达216Mbit/s,那么存储1小时这样的电视节目需要近80GB的存储空间,而欲实现远距离传送的话,则需要占用108~216MHz的信道带宽。显然对于现有的传输信道和存储媒体来说,其成本十分昂贵。因此,为节省存储空间,充分利用有限的信道容量传输更多的多媒体信息,需对多媒体数据进行压缩。多媒体数据的压缩包括对视频数据和音频数据的压缩,二者采用的基本压缩技术相同,只是视频信号的数据量比音频数据量大得多,压缩难度更大,所以通常以视频信号为例来讨论多媒体数据的压缩技术。
从图像压缩编码的发展过程看,可以分为两个阶段,即第一代、第二代图像压缩编码方法。第一代图像压缩编码方法以仙农信息论为理论基础,不关心图像的具体内容,主要考虑图像信源的统计特性。这一方法是通过在空间和时间上对图像取样得到的一组像素值来表示图像视频序列(声音则是通过在时间上对波形进行取样得到的一系列样值进行表示),进行压缩时采用一般信号分析的方法消除其中的冗余数据。这种基于像素(或基于波形)的压缩方法即为第一代图像压缩编码方法。第一代图像压缩编码方法于20世纪80年代初已趋于成熟。“第二代图像压缩编码方法”这一术语出现于20世纪80年代中期,其编码方法主要用于获得极低码率的压缩图像数据,为此第二代压缩编码方法从研究人类视觉特性出发,通过人眼识别图像所依据的关键特征来构造图像模型。目前第二代技术尚未发展到成熟阶段。
有关图像压缩编码的国际标准主要有:JPEG/ JPEG2000、H.261、H.263、H.264/AVC、H.265/HEVC、MPEG-1、MPEG-2/H.262、MPEG-4、AVS和HEVC等。JPEG标准是由ISO和ITU-T组织的联合摄影专家组(Joint Picture Expert Group)于1991年提出的用于压缩单帧彩色图像的静止图像压缩编码标准,其后在2000年年底,联合摄影专家组又制定了具有更高编码效率的静止图像压缩标准 JPEG2000;H.261 是由 ITU-T 为在窄带综合业务数字网(N-ISDN)上开展速率为 p*64kbit/s 的双向声像业务(例如可视电话、视频会议)而制定的全彩色实时视频图像压缩标准,其中p = 1~30,因此H.261也称为p*64标准;H.263是由ITU-T 制定的低比特率的视频图像编码标准,主要用于 64kbit/s 及以下速率的应用,如可视电话和视频会议;H.264/AVC是ISO活动图像专家组(MPEG)和ITU-T的视频编码专家组VCEG组成的联合视频组JVT(Joint Video Team)于2003年制定的一个视频压缩编码标准,该标准不仅压缩比高,还具有良好的网络适应能力,能够在恶劣的网络传输条件下提供较高的抗误码性能;MPEG标准是由ISO活动图像专家组(MPEG)制定的一系列运动图像压缩标准,MPEG-1是为速率为1~1.5Mbit/s的数字声像信息的存储而制定的,该标准通常用于提供录像质量(VHS)视频节目的光盘存储系统;MPEG-2/H.262是由ISO MPEG和ITU-T于1994年共同制定发布的运动图像压缩标准,初衷是提供一个广播电视质量(CCIR 601格式)的视频信号,后来该标准的适用范围不断扩大,成为能够对图像信号进行不同分辨率和不同输出比特率的编码的通用标准;事实上ISO活动图像专家组最初制定的一系列标准中有MPEG-3,主要用于提供HDTV质量的视频信号,但由于后来MPEG-2的适用范围逐渐扩大以致能够支持MPEG-3的所有功能,于是MPEG-3被取消;MPEG-4是由ISO MPEG制定的、初衷是用于甚低码率(低于64Kbit/s)应用的一个通用标准,计划采用第二代压缩编码方法,但由于第二代算法还不够成熟,MPEG-4就转而支持那些已有标准不能覆盖的那些应用,如交互式多媒体服务等;AVS(Audio Video Standard)是由我国制定的一个视频编码国家标准,具有自主知识产权,该标准提出了一系列优化技术,能够以较低的编码复杂度实现与国际标准相当的技术性能;HEVC又被称为H.265,是由ISO MPEG和ITU-T VCEG组成的联合视频编码组JCT-VC(Joint Collaborative Team on Video Coding)制定的新的视频压缩国际标准,该标准旨在处理更高分辨率和更大尺寸的图像。
音频信号的压缩与图像压缩相比,其不同之处在于图像信号是二维信号,而音频信号是一维信号,数据压缩难度相对较低。在多媒体技术中涉及的声音压缩编码的国际标准主要有ITU-T制定的G系列标准,如G.711和G.721、G.729等;MPEG组织制定的MPEG-1和MPEG-2音频标准;用于数字电视广播和HDTV系统的AC-3标准;基于特定应用的地区性编码标准,如移动蜂窝网络中的AMR语音编码等。
2.多媒体数据库及检索技术
多媒体数据库用于存储多媒体数据。传统的关系数据库仅适合存储结构化的数字、文字和数值信息等,但不适合存储非结构化的多媒体数据,其局限性主要体现在:多媒体数据内部有各种复杂的时域、空域以及基于内容的约束关系;需要实时提取音视频数据流,这些数据流通常在时间上有严格要求且数据量很大;若多媒体数据采用分布式存储,则数据库还需将不同数据源的信息进行同步后,再提供给用户。因此多媒体数据需要采用适当的数据结构进行存储,如将关系数据库进行扩充或采用面向对象的数据库来实现。目前多媒体数据库技术仍不成熟,需进一步发展。
此外,对多媒体数据进行检索与查询的相关技术也得到发展,如基于内容的检索和基于语义的检索。其中基于内容的检索是通过多媒体数据中的某些特征检索出具有同样或类似特征内容的多媒体数据。如给出图像中物体的颜色、形状特征,可以检索出具有相同或类似颜色、形状特征的物体的图像来。基于语义的检索则是更高级的检索方式,通过给出“概念”或“事件”等语义,找出具有相同“概念”或“事件”的多媒体数据。例如,给出“拿手机的人”“河流”等概念或事件,可以检索出具有相同或相似语义的图像或视频。基于内容的检索和基于语义的检索代表当前多媒体领域的重点研究方向。
3.多媒体通信网络技术
网络应用的需求是推动网络技术发展的主要动力。随着视频会议、视频点播、多媒体即时通信、多媒体信息检索与查询等多媒体网络应用的开展,能够满足多媒体应用需要的通信网络必须具有高带宽、可提供服务质量的保证和实现媒体同步等特点。
首先,网络必须有足够高的带宽以满足多媒体通信中的海量数据,并确保用户与网络之间交互的实时性。就单个媒体而言,对网络带宽要求最高的媒体是实时传输的活动图像。其次,网络应提供服务质量的保证,目的是满足多媒体通信的实时性和可靠性的要求。为了使用户拥有实时的感觉,网络对语音和图像的单程传输延时应在100~500ms之间,一般应小于250ms。而在交互式多媒体应用中,系统对用户指令的响应一般应小于1~2s。最后,网络必须满足媒体同步的要求,包括媒体间同步和媒体内同步。由于多媒体信息具有时空上的约束关系,例如图像及其伴音的同步,因此要求多媒体通信网络应能正确地反映媒体之间的这种约束关系。
传统网络,无论是通信网、计算机网还是电视广播网,虽然都可以传递多媒体信息,但都不是理想的解决方案。有线电视网络是单向的,不支持多媒体的交互;计算机通信网不提供可靠的服务质量保证;通信网络的技术复杂性高,开销巨大。为了适应多媒体业务的发展需要,有必要进行网络“融合”以提供理想的多媒体业务。
以软交换为核心的NGN网络为多媒体通信开辟了更广阔的天地。NGN网络采用开放的分层体系架构来实现语音、数据和多媒体业务。在这种分层体系架构下,与业务有关的功能独立于与传输有关的技术,各功能部件之间采用标准的协议进行互通,能够兼容PSTN网、IP网、移动通信网等多种网络技术,提供丰富的用户接入手段,支持标准的业务开发接口,并采用统一的分组网络进行传送。虽然NGN网络目前仍面临很多问题,但网络融合将成为必然趋势。
4.多媒体信息存储技术
由于多媒体信息的信息量巨大,因而在多媒体信息传输时,为保证其传输质量必须对其实时性提出较高的要求,同时还需保持媒体间的同步关系。这些特点对多媒体系统的存储设备提出了很高的要求。既要保证存储设备的存储容量足够大,还要保证存储设备的速度要足够快,带宽要足够宽。满足上述要求的存储设备有多种,包括硬盘、光盘和磁带等等。
磁带是以磁记录方式来存储数据的,它适用于需要大容量的数据存储,但对数据读取速度要求不是很高的某些应用,主要用于对重要数据的备份。光盘则是以光学介质来存储信息,光盘的种类有很多,例如,CD-ROM、CD-R、CD-WR、DVD和DVD-RAM等。而以光盘为主存储介质的光盘库存储系统不仅具有巨量的存储特性,还能够实现数据的网络共享。光盘和光盘库的存储容量大,成本低,尤其是光盘更换方便,可以被看作是一种无限容量的存储设备,但是对这种设备中的数据读取有时不能立即得到响应,有时还需人工干预。硬盘及磁盘阵列则具有更快速的数据读取速度。硬盘是电脑中最重要的一种数据存储设备和数据交换媒介,按照接口类型不同,可以分为电子集成驱动器(Integrated Drive Electronics,IDE)和小型计算机系统接口(Small Computer System Interface,SCSI)两种。其传输速率的快慢直接影响计算机系统的运行速度。目前新型增强IDE接口的硬盘具有9~66Mbit/s的传输速率, SCSI接口的硬盘传输速率已达160Mbit/s。虽然硬盘的存取速度已经得到了很大提高,但仍然满足不了处理器的要求。为了解决这个问题,人们采取了多种措施,其中一种就是由美国加州大学伯克利分校的D.A.Patterson教授于1988年提出的廉价冗余磁盘阵列(Redundant Array of Inexpensive Disks,RAID)。RAID将普通SCSI硬盘组成一个磁盘阵列,采用并行读写操作来提高存储系统的存取速度,并且通过镜像、奇偶校验等措施提高系统的可靠性。由于硬盘及磁盘阵列的读取速度快,因此能够为实时媒体流提供即时读写能力,并支持大量用户同时访问,但是一般价格较高,容量不太大,适用于存储经常被访问的内容。为了进一步提高数据的读取速度,同时获得大容量的存储,存储区域网络(Storage Area Network,SAN)技术应运而生。SAN是一种新型网络,由磁盘阵列连接光纤通道组成,以数据存储为中心,采用可伸缩的网络拓扑结构,利用光纤通道有效地传送数据,将数据存储管理集中在相对独立的存储区域网内。SAN极大扩展了服务器和存储设备之间的距离,拥有几乎无限的存储容量以及高速的存储能力,真正实现了高速共享存储的目标,满足了多媒体应用的需求。
5.多媒体终端技术
多媒体通信终端是多媒体通信系统的重要组成部分,它面向用户,为用户提供与系统的交互功能,并将多种媒体数据进行集成,通过同步机制将多媒体数据提供给用户。多媒体通信终端应实现信息采集、处理、显示和数据同步等基本功能,其中涉及到的关键技术包括信源编码技术(如图像压缩编码技术)、信道编码技术(如频带传输技术、纠错技术)和信号处理与识别技术(如语音识别技术、人脸识别技术)等。
适用于多媒体通信系统的业务多种多样,不同业务所使用的多媒体终端也各不相同,如多媒体计算机终端、多媒体移动终端以及针对某种特定应用的专用设备,例如机顶盒、可视电话终端设备等。像机顶盒、可视电话终端这样的专用设备,其硬件平台多采用专用集成电路来完成对信息的高速处理,而对于多媒体计算机终端,其硬件系统则是较高配置的计算机主机硬件,输入设备采用鼠标、跟踪球、电子笔、触摸屏、摄像头和视音频采集卡等,呈现给用户图形化的界面,输出手段也非常丰富,可采用声音、图形图像以及活动视频作为信息的显示形式。随着移动通信系统的发展,利用移动终端设备开展多媒体业务势在必行。移动通信终端为用户提供极大的灵活性,使用户能够在任何时间、任何地点进行通信。移动终端在为用户提供通话的同时,还可以看成是一台小型计算机,对多种多媒体应用进行处理,这就要求移动终端具有极大的智能性。移动终端的缺点是利用电池作为电源,其功率和寿命会受到限制,并且由于移动终端体型较小,限制了其存储容量以及数据的处理能力。尽管如此,随着市场需求的不断增加,必将推动多媒体移动终端技术的迅速发展。