1.2.3 Sora=扩散模型+Transformer模型
对于Sora的工作原理,OpenAI发布了相关的技术报告,标题为《作为世界模拟器的视频生成模型》。可见,OpenAI对于Sora的定位是世界模拟器,也就是为真实世界建模,模拟现实生活中的各种物理状态,而不仅仅是一个简单的文生视频工具。也就是说,Sora模型的本质,是通过生成虚拟视频来模拟现实世界中的各种情境、场景和事件。
技术报告中提到,研究人员在大量的不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型,同时,引入了Transformer模型,该模型对视频的时空序列包和图像潜在编码进行操作。研究结果表明,通过扩大视频生成模型的规模,有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。
简单而言,Sora就是一个基于扩散模型,再加上Transformer模型的视觉大模型—这也是Sora的创新所在。
事实上,过去十年,图像和视频生成领域有了巨大发展,涌现出了多种不同架构的生成方法,其中,生成式对抗网络(Generative Adversarial Network,GAN)、StyleNet框架路线、Diffusion模型(扩散模型)路线以及Transformer模型路线是最突出的4条技术路线。
GAN由两个部分组成:生成器和判别器。生成器的作用是创造出看起来像真实图片的图像,而判别器的作用是区分真实图片和生成器产生的图片。这两者进行竞争,最终生成器能够产生越来越逼真的图片。虽然GAN生成图像的拟真性很强,但是其生成结果的丰富性略有不足,即对于给定的条件和先验,它生成的内容通常十分相似。
StyleNet的框架路线是基于深度学习的方法,使用神经网络架构来学习键入语言和图像或视频特征间关系。通过学习样式和内容的分离,StyleNet能够将不同风格的图像或视频内容进行转换,实现风格迁移、图像/视频风格化等任务。
Diffusion模型(扩散模型)路线则是通过添加噪声并学习去噪过程来生成数据的。连续添加高斯噪声来破坏训练数据,然后通过学习反转的去噪过程来恢复数据,扩散模型就能够生成高质量、多样化的数据样本。举个例子,假如我们现在有一张小狗的照片,可以一步步给这张照片增加噪点,让它变得越来越模糊,最终会变成一堆杂乱的噪点。假如把这个过程倒过来,对于一堆杂乱无章的噪点,我们同样可以一步步将它们去除,把其还原成目标图片,扩散模型的关键就是学会逆向去除噪点。扩散模型不仅可以用来生成图片,还可以用来生成视频。比如,扩散模型可以用于视频生成、视频去噪等任务,通过学习数据分布的方式生成逼真的视频内容,提高生成模型的稳定性。
Transformer模型我们已经很熟悉了,其是一种能够理解序列数据的神经网络架构,通过自我注意力机制来分析序列数据中的关系。在视频领域,Transformer模型可以用于视频内容的理解、生成和编辑等任务,通过对视频帧序列进行建模和处理,实现视频内容的理解和生成。相比传统的循环神经网络,Transformer模型在长序列建模和并行计算方面具有优势,能够更好地处理视频数据中的长期依赖关系,提升生成视频的质量和效率。
Sora采用的其实就是Diffusion模型(扩散模型)和Transformer模型的结合—Diffusion Transformer模型,即DiT。
基于Diffusion和Transformer结合的创新,Sora首先将不同类型的视觉数据转换成统一的视觉数据表示(视觉块),然后将原始视频压缩到一个低维潜在空间,并将视觉表示分解成时空块(相当于Transformer Token),让Sora在这个潜在空间里进行训练并生成视频。接着做加噪去噪,输入噪声视觉块后,Sora通过预测原始“干净”的视觉块来生成视频。
OpenAI发现,训练计算量越大,样本质量就会越高,特别是经过大规模训练后,Sora展现出模拟现实世界某些属性的“涌现”能力。这也是为什么OpenAI把视频生成模型称作“世界模拟器”,并总结说持续扩展视频模型是一条模拟物理和数字世界的希望之路。