AI绘画+LoRA模型训练从新手到高手
上QQ阅读APP看书,第一时间看更新

1.1.2 AI绘画的基本原理

能够实现AI绘画的算法模型有多种类型,AI绘画质量能够大幅提升,源于一种叫作扩散模型(Diffusion Model)的技术,本节将为读者简要介绍该模型的基本原理。

1.扩散模型生成图像的过程

扩散模型是一种较新的图像生成模型,是生成模型的一种,在生成图像的过程中,它实际上是在不断地去除噪声,从而逐渐得到一个越来越真实、越来越精细的图像,如图1-3所示。

图1-3 不断去噪最终得到清晰图片

从图1-3所示的过程可知,生成图像的过程就是不断去除噪声的过程,假设步数共有1000,刚开始是一张完全随机的噪声图像,每经过一步去噪,图片就更加清楚一些,经历1000次后,最终得到一幅清晰的图像。每一步去噪都是通过一个Denoise模块来完成的,如图1-4所示,它的功能就是根据输入的图片和当前步数来预测出噪声,并减去噪声,从而让图片更加清晰。

图1-4 通过预测噪声、减去噪声来获取更清晰的图片

2.Noise Predicter的训练

Denoise模块的内部包括Noise Predicter模块,该模块的功能是根据当前的图片及步数来预测出当前的噪声。Noise Predicter是一个神经网络模型,它的功能是通过训练学习得到的。接下来介绍Noise Predicter是怎样获得这种预测功能的。

一张清晰的图片叠加随机的噪声,在有限步数内,使它最终变成符合高斯分布的随机图像。这个过程实际就是生成过程的反向过程。如图1-5所示,在逐步加噪过程中,每一个步骤的步数和图像,可以作为Noise Predicter的输入,而每一步叠加的噪声,则可作为Noise Predicter的标准输出(答案)。

图1-5 一张图片加噪的过程,每一步都是一个训练样本

对这张清晰的图片,重复进行多次这种加噪步骤直至完全随机,就能得到每一个Step下的多组训练样本。基于这些训练样本,不断迭代优化,就能让Noise Predicter拥有预测噪声的能力。

3.从文本到图像

实际应用中,AI绘画可以根据一段文本描述进行图像生成,如图1-6所示,文本描述干预着每一个生成的步骤。

图1-6 通过文本控制生成

相对的,训练时不仅需要一幅清晰的图片,同时也需要这幅图片精确的文本描述,模型对上亿张图片进行训练学习之后,就获得了根据文本描绘图片的能力。