1.1 大模型介绍
大模型属于Foundation Model(基础模型)[1],是一种神经网络模型,具有参数量大、训练数据量大、计算能力要求高、泛化能力强、应用广泛等特点。与传统人工智能模型相比,大模型在参数规模上涵盖十亿级、百亿级、千亿级等,远远超过传统模型百万级、千万级的参数规模。不同于传统人工智能模型通过一定量的标注数据进行训练,一个性能良好的大模型通过海量数据及设计良好、内容多样的高质量标注语料库进行训练。同时,大模型也很难在单个GPU(Graphics Processing Unit,图形处理器)上进行预训练,需要使用DeepSpeed、Megatron-LM等训练优化技术在集群中进行分布式训练。
大模型技术过程如图1-1所示。在大模型技术发展初期,人们在解决具有序列特性的数据(指具有先后顺序的数据)的领域的问题时,主要依赖RNN(Recurrent Neural Network,循环神经网络)[2]和LSTM(Long Short-Term Memory,长短期记忆网络)[3]等序列模型,但这些模型都包含不可并行计算的缺点。
图1-1 大模型技术演进过程
Word2Vec是Google公司于2013年提出的一种高效训练词向量的模型[4],基本出发点是上下文相似的词的词向量也应该相似。它在2018年之前非常流行,但随着2018年Google公司推出预训练语言表征模型BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表示)[5]以及其他模型的出现,Word2Vec被这些新模型超越。
2017年Google公司提出的Transformer架构[6]引入了自注意力机制和位置编码,改进了RNN和LSTM不可并行计算的缺陷。Google公司发布的模型还包括2018年用来解决NLP(Natural Language Processing,自然语言处理)中的多义词问题的双向LSTM语言模型ELMo[7]以及2018年基于Transformer架构的具有3.4亿个参数的BERT模型。OpenAI公司推出的生成式预训练语言模型包括2018年的具有1.1亿个参数的GPT[8]、2019年的具有15亿个参数的GPT-2[9]、2020年的具有1750亿个参数的GPT-3[10],以及2022年的ChatGPT。这些模型或产品将大模型的发展推向高潮。2023年,越来越多的开源模型如LLaMA[11]、ChatGLM[12]等相继发布。
另外,AutoGPT等自主人工智能实现了大模型与各类工具的有效结合,使AI智能体(AI Agent)成为行业研究热点。2023年GPT-4[13]、GPT-4V、AnyMAL、文心大模型4.0等的出现更是将大模型的发展方向由语言模型引向通用性更强的多模态/跨模态模型。2023年11月,OpenAI公司发布处理速度更快、费用更低的GPT-4 Turbo模型,并宣布用户无需任何代码即可构建属于自己的GPT,并将其发布至GPT Store,这一动作促进了GPT生态系统的进一步完善。2024年,OpenAI公司发布文生视频大模型Sora。该模型能够准确理解用户指令中所表达的需求,并以视频的形式进行展示。由Sora模型创作的视频不仅包含复杂的场景和多个角色,而且对角色的动作、瞳孔、睫毛、皮肤纹理进行了细节刻画。
大模型同样革新了传统的PGC(Professional Generated Content,专业生成内容)和UGC(User Generated Content,用户生成内容),引领了AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的新浪潮。用户可以使用人工智能技术生成具有一定创意和质量的作品。经过短暂的发展,大模型已经将AIGC提升到新的高度,借助先进的大模型技术,用户能够以前所未有的速度、质量和规模生成丰富多样的内容,涵盖文字、图像、音频、视频等多个领域。这一飞跃式的进步不仅极大地提升了内容生产的效率,而且降低了创作的门槛,使得更多人能够参与内容创造。