视听媒体虚拟现实内容创作研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

一、汇聚多学科知识的VR新技术

比较一下任天堂的《虚拟男孩》(Virtual Boy,1995)和Oculus的《阿斯加德的愤怒》(Asgard's Wrath,2019),借助强大的CGI技术,超越真实时空的虚拟现实技术今非昔比(如图3-3-1所示)。按照摩尔定律微处理器的性能每18个月提高一倍,今天人类的计算能力相较《虚拟男孩》时已经提升了2[5]6倍。在计算能力基础上,对VR之父伊凡·萨瑟兰定义的虚拟现实终极显示的5大技术要素的深入研究已经基本实现“使用者无法区分虚拟世界与现实世界的差异”。当然,除了人脑科学、材料科学的贡献,资本的力量也功不可没。

图3-3-1 《虚拟男孩》和Oculus的《阿斯加德的愤怒》

2012年登陆Kickstarter众筹平台的Oculus Rift,当年8月份,在一天的时间里,成功募集到超过25万美元的资金,随后的一个月内募集资金超过了250万美元。2014年3月,扎克伯格体验完Oculus Rift之后,开出了高达20亿美元的收购价格,Oculus一跃成为世界最知名的VR公司之一。这次收购开启了新一轮的资本争夺,VR概念迎来了新一轮的“爆发”。这个时间点和事件成为虚拟现实第三次浪潮和第二次浪潮之间清晰的分界线。

2015年9月,三星正式推出了虚拟现实头显Gear VR,虽然需要配合Galaxy智能手机来使用,但99美元的售价树立了VR移动设备的标杆[6],VR第一次大批量地走入寻常百姓家。

2016年被虚拟现实业界称为“虚拟现实(VR)元年”,之所以将2016年定义为VR元年,关键是2016年的VR产业具备了可量产的高质量设备和完整的产业链。境外,三大高端虚拟现实产品Oculus Rift CV1、HTC Vive及索尼PlayStation VR相继上市发售。境内,大朋、蚁视也推出了一体机产品。三星Gear VR、谷歌Daydream View、暴风魔镜等配合手机使用的VR眼镜以较低的价格,承担了向大众普及VR的任务。2K以上的分辨率、90Hz的屏幕刷新率、110度以上的视场角已成为大多数产品的标配。

受到硬件技术进步和资本市场的激励,面向消费市场的VR内容也快速增长,当年映维网对Oculus Home、Steam、Viveport及PlayStation Store四个内容分发平台的数据进行了统计,VR游戏和VR应用达到了2378款,相比2015年的213款,增长率高达1016%。不过,资本市场对VR产业的预期过高,虽然当年全球的总产值达27亿美元,应该算是一个非常不错的成绩,但是远远低于年初数据分析公司SuperData预测的51亿美元。

由于技术迭代的周期规律和VR内容创作短时间内难以有较大的突破,2017年VR资本市场降温。减少了资本喧嚣对VR产业的健康发展是有利的,大浪淘沙后留下来的中坚力量制定了VR技术发展的路线图,对VR的本质规律有了更深入的思考。增强用户的沉浸感、改善用户的交互体验、现实世界与虚拟环境融合朝着真正实现“无法区分现实世界与虚拟世界”的终极构想发展,持续提升VR技术水平。

VR内容创作也经历了一个去噪的过程,逐步摆脱了跟风炒作,有了尊重VR创作规律的自觉,创作领域保留下了真正钟情于VR,有志于VR的精英团队。视听内容在新闻、纪录片、电影的结合、融合、超越方向有了大幅度的提升,产生了真正属于VR的内容。

2018年以后,无论是产业层面还是消费层面,VR从一款简单的娱乐和游戏设备,转向一个改善生活、工作的工具,应用于工业科技、医疗健康、教育培训、游戏娱乐等多个领域。2018年1月,华为VR头显HUAWEI VR2上架华为官方商城、天猫以及京东,售价1999元人民币,同年6月开放对Steam平台的支持。2018年12月腾讯在T-DAY腾讯用户开放日展示了其第一款VR头显设备——TenVR。上海乐相科技有限公司旗下VR品牌大鹏VR一体机获得2019德国IF设计奖。2019年3月28日Pico发布4K VR一体机。其实早在2017年,爱奇艺就发布了消费级的4K VR一体机,到2019年,4K产品线的平均价格已经下降了一半。2018年初8K VR硬件解码技术已经成熟,2019年10月中国品牌小派科技发布了VR 8K头显,Plus版售价999美元。在分辨率上,8K产品线意味着人眼看不到颗粒感,没有纱窗效应,基本实现视网膜效果。

2019年3月20日,在游戏开发者大会(Game Developers Conference,简称GDC)上,Oculus正式发布新款VR头显产品——Oculus Rift S,包括Oculus Touch控制器售价399美元,Rift S采用了Oculus Insight内向外追踪技术[7]。用户无需安装复杂的外部跟踪传感器即可使用。Rift S包含五个跟踪摄像头,配合一项名为Passthrough+的技术,当用户走出游玩空间的时候,无需摘下头显也可查看周围环境[8]。在智能移动设备领域独占鳌头的苹果公司,计划打造一款代号为T288的头戴式装置,双眼的分辨率都达到8K。[9]

据美国VR市场数据分析机构Greenlight Insights发布的《2018年中国VR市场报告》,到2022年,中国VR头显硬件市场规模将达到58亿美元,VR线下市场将达到18亿美元,VR内容消费市场将达到8.167亿美元。中国VR市场头显销量2022年将达到5470万套。

面向普通电子消费市场,激活技术迭代更新的潜能和内容创造的活力,这也正是第三次虚拟现实浪潮和前两次浪潮的本质不同。智能手机和移动互联技术的发展,尤其是5G通信技术的落地,使得VR视频平台和应用App中VR内容的购买、订阅的通道已经打开,将极大地刺激虚拟现实产业链各方的积极参与,完成产业布局,让VR内容的创作和消费成为常态,这个时间点才是实至名归的VR元年。

第三次浪潮,VR扩张了自己的领土,汇集了多学科的知识,和VR属性相关的技术又有了新的发展,可以更好地利用人类的5大感官,为人们带来效果更佳的虚拟现实体验感。

人类的5大感官中的视觉、听觉、触觉,对应VR硬件技术中的头显、耳机、互动手柄(或互动衣甲)(如图3-3-2所示)。显示技术要想骗过人眼,分辨率方面普通的27寸液晶显示器达到5K即可称之为视网膜效果,VR头显全景影像则需达到8K*8K,即单眼显示屏8K分辨率。为了解决眩晕,头显的刷新频率需要达到95Hz每秒,像素余晖小于3毫秒。音频技术要求耳机能够还原立体声音,考虑到来自全景空间的声音定位,沉浸式音频(Immersive Audio)是最理想的实现方式。

图3-3-2 理想的人机界面(HMI)和外围设备

虚拟现实的复杂性和创新性超过了以往任何一种影音产品,而且它还复合了多学科的知识。和VR影视创作相关的VR关键技术主要包括:计算机图形技术、立体显示技术、视觉跟踪和视点感应技术(眼动捕捉)、沉浸式音频技术、动作捕捉、空间定位等。下面概述其中四种技术。

(一)计算机图形技术

在非虚构类作品中设计交互叙事的部分,需要对相应的场景进行CGI重建。虚构类作品中的合成特效,CG角色也离不开计算机图形技术。在“达摩克利斯之剑”上,用户看到的是单纯的计算机几何模型,几乎没有自然物的物理属性。随着计算能力的提升,CG技术的发展,现在的VR不仅能尽可能地保留物体的物理属性,而且更加注重对动力学规律的研究,甚至发展出了一门专门的学问——VR物理学,即在虚拟空间中物体运动规律的科学。

关于计算机图形技术应用的案例,非虚构类作品可参考后面章节中的《越界》(Across the Line)、《8:46》《饥饿的洛杉矶》(Hunger in LA)等;虚构类作品可参考《火星救援VR》(The MartianVR)、《救命》(Help)等。

(二)立体显示技术

路易·雅克·芒代·达盖尔(Louis Jacques Mand Daguerre)公布摄影术十年后,英国人大卫·布鲁斯特(David Brewster)发明了立体镜(如图3-3-3所示)。当时的立体照片由两张照片并排组合而成,照相机拍摄时使用相当于双眼距离的65毫米双镜头,一次性完成这两张照片的拍摄。使用立体镜观看立体照片时,刚开始左眼看到左边的照片,右眼看到右边的照片,通过短暂的视觉“调适”,左右眼的影像“重合”成了立体的影像。前景向前拉伸,背景后退,空间层次分明。

图3-3-3 美国安德伍德公司拍摄的蛋白立体照片

立体照相机和立体镜的核心技术并不在于同时拍摄和呈现两张一样的照片,恰恰相反,是两张不一样的照片成就了立体影像(如图3-3-4所示)。

图3-3-4 立体影像的构建

20世纪50年代,第一部彩色立体影片《博瓦纳的魔鬼》问世,借助于红蓝滤光镜分别让左右眼看到两个水平视差的影像,大大提升了电影的视觉效果。

进入21世纪,偏光技术成为了立体活动影像放映的主流,杜比Vision激光放映机三倍于传统银幕的亮度,极大改善了立体影像的影调层次。立体影像的拍摄虽然没有脱离最早的立体照相的原理,但制作者对影像立体关系的理解有了质的飞跃。立体“照片对”只是两个静止的画面,观看时眼睛有足够的时间去调适。一旦建立空间关系,大脑的运算随即被暂停,立体画面得到持续呈现。一部3D影视作品通常会有超过一千个立体镜头对,涉及多种空间关系构成,每一组镜头对需要即刻在观众视觉系统中构建立体效果,需要极其精确地处理许多参数数据。所以,轴间距不会拘泥于视间距的65毫米,而是随场景变化而变化,同时还涉及会聚、立体窗口、舒适区等大量的和活动影像相关的技术问题。

3D电影使用两台摄影机拍摄,虚拟现实3D全景视频的拍摄,不能使用两台VR摄影机,而是要在同一台摄影机设置立体镜头对,在缝合的时候输出两个有视差的全景影像。小蚁相机和Google合作开发的Yi Halo有17个镜头,能拍摄8K×8K分辨率每秒30帧的3D全景视频(如图3-3-5所示)。

图3-3-5 Yi Halo VR摄影机

得益于3D影片近70年的创作积累,VR立体影像的制作在继承大量3D技术成果的基础上,已经朝着光场技术方向突破。Foundry和Figment Productions以及Surrey大学三方共同组成ALIVE项目组,开发一种观众能够在虚拟现实内容里自由移动的实拍光场技术。当前的VR技术观众可以自由选择观看的角度,但无法在实拍的场景中移动。ALIVE项目组研发的“定位式VR”可以还原实拍视频内容的视差,观众可以前倾或者环顾查看场景,由此得到相对真实的沉浸式体验,但支持大范围移动的技术难题还没有被攻克。

ALIVE使用光场技术从多个角度捕捉真实场景和真人动作,它是一种数据处理技术和后期制作工具,从光场捕获的数据可以实现实拍元素的体积化,这些元素交付到游戏引擎中,可以进行实时渲染。由此,最终结果将是一个更加真实的沉浸式体验,而其中实况的视频内容,将再现出现实世界中看到的视差,这个概念被称为“定位式VR”。

电影级的真人实拍型VR作品《金奇与双重世界》(Kinch&The Double World)是ALIVE正在进行的实验。影片讲述了一位无家可归的男孩Kinch,他流浪在伦敦街头,因偷了一个面包而被警察追捕,后来逃到了一个古老的剧院,并被一位老魔术师带走,进入了一个与现实世界平行的魔法世界。分别在伦敦的四个地点取景拍摄,最后融合了360度真人动作,并结合CGI环境和光场技术,以构建沉浸式电影(如图3-3-6所示)。

图3-3-6 ALIVE的真人实拍型VR作品《金奇与双重世界》

(三)视觉追踪和视点感应技术

人的双眼的视域最大可以达到188度,双眼重合视域为124度,单眼舒适视域为60度。不过清晰的视域集中在视网膜的中央凹部,最为敏感的视域只有10~20度,所以在观察时,眼球会迅速转动,把最重要的观察对象定位在中央凹部[10]。视线追踪(Eye tracking/Gaze tracking),就是测量人眼瞳孔和相对于头部运动程度的技术,目的是获取精确的视点坐标。

世界上第一个非侵入式的眼动仪由盖·托马斯·布斯韦尔(Guy Thomas Buswell)1922年在芝加哥研制成功,使用在眼睛上反射的光束,然后将它们记录在胶片上,实现对视线位置的判定。20世纪70年代,出于对阅读研究的需要,眼动技术迅速发展,到了20世纪80年代,科学家已经开始使用眼动技术解答人机交互的问题,帮助残疾人在电脑菜单中搜索命令。

虚拟现实技术应用视线追踪技术的关键价值在于,通过定位瞳孔的位置,获取精确的瞳孔中心坐标,就可以计算出使用者的视点。虚拟现实应用程序感应到用户的视点,可以有选择地对视点区域图像进行增强,获取高质量的图像,同时可以弱化非视点区域的图像,模拟出人眼的敏感和非敏感视域的差别。

人通过键盘和鼠标对电脑进行输入,电脑通过屏幕对人进行输出,这种传统人机交互方式在虚拟现实中已经变得不适用。发挥眼球控制肌肉不容易疲劳的特性,基于视线追踪的人机交互将是下一代计算平台标准的界面技术。

(四)沉浸式音频技术(Immersive Audio)

真实世界的声音来自四面八方,人类的空间定位多数情况下是听觉优先。耳朵成对的自然进化,可以使大脑通过辨识声音相位的微妙差别,准确听声辨位。沉浸式音频技术需要配置3D扬声器环境或佩戴立体声耳机回放渲染后的声音。相关作品可参考《失明笔记》(详见本书第七章)。

三维的声音可以实现最大化沉浸式体验。从立体声到全景声,再到多维音频,声音创作的理念不断迭代更新。同样都是声音,但它们面向的对象不同。立体声是基于声道的音频,它将内容传递给物理扬声器,每个扬声器都有一个输出通道;全景声是基于对象的音频,它描述了某个音频对象放置在声场中的位置,并且通过数据处理计算出其对特定三维扬声器系统的回放。虚拟现实中的声音是基于声场音频,通过预先渲染的双耳信息捕获声场,并在立体声耳机中进行静态双耳播放,或者借助VR头显转动产生的数据进行动态双耳回放。动态双耳回放带给用户的体验和真实声场一致。

全景三维影像没有了框架的限制,创作者手中依靠影像造型手段叙事的工具大部分失去了效力,为了对观众进行必要的引导,声音的线索变得空前重要。全景声技术已经很出色,但是VR头显的位置变化需要可以“转动”或者“升降”的声音,基于声场的音频渲染技术解决了这个难题。在创作中,理想的虚拟现实声音除了水平面上的环绕信息,还包括高度信息。影片《公民凯恩》中苏珊演唱会声音的上升感受,是上升的运动镜头产生的心理暗示,而VR声音的高度则是真实的声音方位变化。

虚拟现实是三维空间声音应用的最佳环境。现场拍摄同步录音一般保持和摄影机相同的位置,常用的方法是双耳、四声双耳或高保真度立体声像复制(Ambisonics)。双耳使用带有放置在人造耳朵内的麦克风的模拟头,而四声双耳则需要四组双耳模拟头(如图3-3-7所示)。

图3-3-7 森海塞尔虚拟现实音频录制设备

影像的历史就是艺术和技术互动发展的历史,通过以上对VR最新技术的简单梳理,可以看到第三次浪潮和前两次浪潮的根本区别就是相对成熟的技术为内容创作提供了有效支撑,内容创作的需求又给技术发展提出了新的要求。

汇聚全球力量完善这些技术并不是什么难题,但作为廉价和成熟的技术解决方案提供给普通的消费者,则考验着摩尔定律下基础产能的水平。