新一代通用视频编码H.266/VVC:原理、标准与实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 视频压缩与编码概述

1.1.1 视频

最初的视频信号是模拟的,最早是基于光电管及阴极射线管的电视系统产生的。但是模拟时代早已过去,如今我们所说的视频通常是指数字视频,从本质上讲其由一系列内容连续的数字图像按时间顺序排列而成。由于人眼的视觉暂留机理,连续播放的图像会形成平滑连续的视觉效果,当播放速度足够快时,人眼不再分辨出每一幅图像,而是在脑海中形成连续的视频。因此,图像是视频信号的基本单位。为了与静止图像相区别,视频中完整图像通常被称为帧(Frame),由许多帧按照时间顺序组成的视频也被称为视频序列(Video Sequence)。

视频序列中的每一幅图像,都是由N×M个像素(Pixel)组成的,每个像素都有具体的数值。因此,视频序列可以表示为三维矩阵,其中N×M表示每幅图像两个维度中的像素个数,形成视频的空间域;第3个维度代表视频的时间域,如图1.1所示。这里需要注意的是,彩色的视频需要3个这样的矩阵,分别代表3个基本的色彩分量,或者亮度和色度分量。此外,每秒播放的帧数目叫作帧率(Frame Rate),单位为fps(Frame Per Second)。为了使人眼能够有平滑连续的感受,一般视频的帧率需要达到25~30fps,超高清晰度视频的帧率甚至需要达到60fps以上。这部分内容将会在第2章中进行详细介绍。视频技术的一些基本概念和基础内容可参考文献[1]。

从上文的分析中可以看出,原始视频的数据量是非常巨大的。以标清电影视频格式(720P)为例,假设3个色彩分量的每个像素均用8bit表示,帧率为30fps,这样每秒的视频数据量达到1280×720×3×8×30=6.64×108(bit)。而时下的潮流应用如高清晰度电视、超高清晰度电视,“4K”甚至“8K”,分辨率和帧率则更高,同时可能采用10bit以上的编码比特深度或比特位深(Bit Depth),读者可以自行换算相应的原始视频数据量。原始视频巨大的数据量为存储带来困难,更无法将原始视频数据在网络上直接进行传输。因此,视频应用的一项关键技术就是视频编码,也称为视频压缩,其目的是尽可能去除视频数据中的冗余成分,减少压缩或编码后的数据量。

图1.1 标准测试视频序列Basketball Drill中的连续三帧图像