一本书读懂大模型:技术创新、商业应用与产业变革
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 AI 3.0:大模型引领的认知智能崛起

1.5.1 大模型:人类经验与充足算力

2019年3月,强化学习之父Richard Sutton发表了一篇名为“The Bitter Lesson”(苦涩的教训)的博客。他在博客中提到:短期内,要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但从长远来看,AI发展的关键在于充分利用算力资源。

该文章一经发布就受到不少AI研究者的反对,他们认为这是对自己工作的否定,并极力辩护。然而,如果我们将时间线拉长来回顾,就会发现Sutton的话不无道理。

机器学习模型从其参数的量级上可以分为两类:一类是统计学习模型,例如SVM(支持向量机)、决策树等,这些模型在数学理论上完备,算力资源的运用相对克制;另一类是深度学习模型,以多层神经网络的深度堆叠为结构,旨在通过高维度暴力逼近似然解来达到目的,这些模型在理论上不够成熟,但能有效地利用算力资源进行并行计算。

神经网络模型虽在20世纪90年代就已出现,但直至2010年前,统计学习模型仍是主流。随后,得益于GPU算力的快速发展,基于神经网络的深度学习模型逐渐成为研究和应用的主流。

深度学习充分利用了GPU在并行计算上的优势,基于庞大的数据集和复杂的参数结构,一次又一次地达到了令人惊讶的效果。大模型指的是参数量达到一定量级的深度学习模型,通常只有大型科技公司有能力部署。

2021年8月,李飞飞与100多位学者共同发表了一份长达200多页的研究报告“On the Opportunities and Risk of Foundation Models”。该报告综述了当前大规模预训练模型面临的机遇及挑战。

在该报告中,AI专家将这类大模型统称为Foundation Models,翻译为“基础模型”或“基石模型”。报告肯定了基础模型对智能体基本认知能力的推动作用,并指出了大模型表现出的“涌现”与“同质化”两大特性。所谓的“涌现”,是指一个系统的行为受隐性因素驱动,而非显式构建。“同质化”意味着基础模型的能力是智能的中心和核心,任何对大模型的改进都会迅速影响整个研究、开发和应用领域,但同时其缺陷也会被所有下游模型继承。

从国内来看,对大模型的定义存在诸多不同意见。人民大学高瓴AI研究院发布的“A survey of LLM”提到,大语言模型通常指的是在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,如GPT-3、PaLM、LLaMA等。目前,大语言模型采用与小模型类似的Transformer架构和预训练目标(如Language Modeling),两者的主要区别在于增加了模型大小、训练数据和计算资源。大语言模型通常遵循扩展法则,部分能力如上下文学习、指令遵循、逐步推理等只有在模型规模增加到一定程度时才会显现,这些能力被称为“涌现能力”。IDC在《2022中国大模型发展白皮书》中定义AI大模型为基于海量多源数据构建的预训练模型,这是对原有算法模型的技术升级和产品迭代。用户可以通过开源或开放API/工具进行模型的零样本/小样本数据学习,实现更优的识别、理解、决策、生成效果以及更低的开发部署成本。华为在《人工智能行业:预训练大模型白皮书》中指出,预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据并训练超大规模神经网络,以高效存储和理解这些数据;下游阶段则是利用相对较少的数据和计算资源对模型进行微调,以达到特定的目的。

综合各方意见,大模型在人工智能领域,尤其是深度学习中指的是具有大量参数的神经网络模型,通常包含数百万到数百亿甚至数千亿的参数。这些模型因庞大的规模和复杂的结构,能够捕捉和学习数据中的细微模式,在多种任务上实现卓越性能。它们主要应用于自然语言理解和内容生成等领域。广义上,大模型还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。