|1.1 虚拟视点图像的产生及应用|
1.1.1 基于深度图像的绘制技术
基于深度图像的绘制(depth-image-based rendering,DIBR)技术是指将参考视点的深度图像(颜色图与对应视点的深度信息),通过三维图像变换(3D image warping)合成虚拟视点的图像。DIBR技术只利用少量参考视点深度图像便可合成任意虚拟视点,极大地提升了用户在客户端的交互自由度,因此被广泛应用在3DTV[1]、立体视频[2]、自由视点视频(free-viewpoint video,FVV)[3]以及三维场景远程绘制[4]等图像系统中。DIBR系统大幅增强了用户体验(quality of experience,QoE),虚拟视点图像则直接影响着用户的视觉感受。在此背景下,有关虚拟视点图像的分析与研究工作已经成为近年来图像处理领域的热点之一。与虚拟视点图像紧密相关的研究工作可大致分为以下几个环节。
(1)获取
该环节的主要目的是获取参考视点的深度图像,主要任务有参考视点预测[5-6]、最优视点选择[7]等。
(2)编码与传输
该环节的主要目的是将参考视点的深度图像编码后传输给客户端,主要任务有深度图像压缩[8-9]、深度图像传输[10-11]等。
(3)合成
该环节的主要目的是在客户端上根据用户的交互信息,实时地生成任意虚拟视点的图像,主要任务有虚拟视点合成[12-13]、虚拟视点图像增强[14-15]等。
(4)度量
该环节的主要目的是实时地评估客户端的用户视觉感知质量,并将度量结果反馈给服务器端,以此来动态控制参考视点预测策略、深度图像压缩参数等,确保用户体验。该环节的主要任务有虚拟视点图像质量度量[16-17]、虚拟视点视频质量度量[18]等。
上述环节中,直接与虚拟视点图像相关的环节是合成与度量。其中,虚拟视点图像质量度量又是整个DIBR系统服务质量的根本,直接影响用户体验;此外,虚拟视点图像质量度量又可反馈给DIBR系统的其他环节,如编码与传输、合成等。因此,本书以虚拟视点图像的质量度量为切入点,重点介绍作者及所在团队在虚拟视点图像质量度量方向的研究进展;以此为基础,介绍虚拟视点图像质量度量在DIBR系统其他环节的应用。
本书所指的虚拟视点图像特指由DIBR技术得到的虚拟视点的图像。类似地,将DIBR技术得到的虚拟视点的视频称为虚拟视点视频(DIBR synthesized video)。
DIBR技术的核心算法是McMillian于1997提出的三维图像变换[19],其原理如图1-1所示。
图1-1 DIBR技术核心算法的原理
如图1-1所示,已知参考视点vref的参考视点图像和三维场景中物体到参考视点像平面的深度,通过三维图像变换,可以将参考视点图像中的像素依照深度变换到虚拟视点vvir下,最终得到虚拟视点图像。整个计算过程实际上遵循了多视点几何重建原理,可大致分为以下两步:首先,根据参考视点的相机参数与参考视点深度,将参考视点图像中的像素反投影(back projection)到三维空间世界坐标系中;然后,根据虚拟视点的相机参数,将反投影到三维空间中的像素重投影(reprojection)到虚拟视点像平面上,最终得到虚拟视点图像。图1-1中的Oxyz即三维空间世界坐标系;O1x1y1与O2x2y2则分别表示参考视点图像与虚拟视点图像的像平面。
设参考视点与虚拟视点的相机均为针孔相机,则上述两个步骤可以形式化描述为
(1-1)
(1-2)
式中,Z1与Z2分别表示三维场景中物体到参考视点相机与虚拟视点相机的深度,与分别是三维空间中任意一点投影到参考视点像平面的像素与虚拟视点像平面的像素的图像坐标,与分别表示参考视点相机的内参数矩阵与外参数矩阵,与表示虚拟视点相机的内参数矩阵与外参数矩阵。关于相机参数矩阵的详细描述可参见文献[20]。表示在三维空间世界坐标系中的坐标。通过联立式(1-1)和式(1-2),便可得到三维图像变换方程(将参考视点图像中的像素变换到虚拟视点图像中):
(1-3)
参考视点图像与通过DIBR技术合成的虚拟视点图像如图1-2所示。其中,参考视点图像来源于微软三维视频(3D video)序列库[21]。可以看到,虚拟视点图像存在明显的不同于传统自然图像由量化编码引起的新的失真类型。以图1-2(b)所示为例,人物的边缘附近出现了大片空洞,严重影响视觉体验。因此,建立主客观一致的质量度量方法来恰当地表征虚拟视点图像中的失真对用户视觉感知的影响,并将虚拟视点图像质量度量方法应用于以DIBR为核心技术的交互式图像系统中,以提升用户体验和系统服务质量,成为学术界与工业界目前的研究热点。
图1-2 参考视点图像与通过DIBR技术合成的虚拟视点图像