1.1.1 现代AI技术的发展
现代AI技术的发展大致经历了以下几个阶段。
1.生成对抗网络(Generative Adversarial Networks)
在2012年,全球人工智能和机器学习权威、华人科学家吴恩达带领团队耗资90万美元,训练了一个世界上最大的深度学习网络,用来指导计算机画出猫脸图片,经过整整3天训练,画出来了一张模糊的图片。2014年,加拿大蒙特利尔大学的Ian Goodfellow提出了生成对抗网络(GAN)的算法,这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型,即一个生成器和一个判别器,使生成器可以生成与真实数据相似的新数据样本,而判别器负责区分生成器生成的假样本和真实数据。使用GAN模型可以生成质量比较高的图片,但这种方法存在一些问题——对抗学习非常麻烦,且对于显卡等资源消耗较高;生成对抗网络很难理解图片各个部分,所以很难进行修改。尽管存在各种问题,研究人员还是在GAN算法的这条路上不断前进,努力提升生成图片的效果。
2.Diffusion Model(扩散模型)
2015年,谷歌开源了deep dream项目,其能够绘制出非常迷幻和超现实的图画,但生成效果并不理想。2016年,Diffusion Model模型开始受到更广泛的关注。它的原理跟GAN完全不一样,Diffusion Model使用随机扩散过程来生成图像,从而避免了传统生成模型中存在的一些问题。Diffusion Model的原理是,先对照片添加噪声,然后在这个过程中学习当前图片的各种特征,并最终生成预期图片。
3.Midjourney平台
2022年2月,Somnai等几个开源社区的工程师做了一款基于扩散模型的AI绘图生成器——Disco Diffusion。从这一模型的出现开始,AI绘画进入了发展的快车道。Disco Diffusion相比传统的AI模型更加易用,且研究人员建立了完善的帮助文档和社群,于是越来越多的人开始关注它。2022年3月,一款由Disco Diffusion的核心开发者参与建设的AI生成器——Midjourney正式发布。Midjourney选择搭载在discord平台,借助discord聊天式的人机交互方式来绘制图片,不需要之前烦琐的操作,通过输入文字即可生成图像。Midjourney生成的图片效果令人惊艳,几乎无法分辨是AI生成的还是人类创作的。
4.DALL·E 2
2022年4月9日,OpenAI研究实验室发布了DALL-E 2这一深度学习模型,其生成的图片和人类作品几乎无差异。但该模型需要付费才能够使用,也有很多使用限制。因为其过于强大甚至可以用于制作假图,所以存在一定的风险。
5.Stable Diffusion
2022年7月28日,Stable Diffusion的AI生成器开始内测,用它生成的AI绘画作品,质量可以媲美DALL-E 2,而且还没那么多限制。最关键的是,Stable Diffusion的开发公司Stability AI崇尚开源,他们的宗旨是“AI by the people,for the people”。Stable Diffusion内测不到1个月,正式宣布开源,这意味着所有人都能在本地部署自己的AI绘画生成器,真正实现每个人“只要你会说话,就能够创作出一幅画”。
AI绘画目前正在高速发展,每天都有新的进展和突破,其迭代速度之快,令人叹为观止,不断引起人们的研究和关注。