1.1 AIGC与AGI:从电到电网的跨越
1.1.1 第四次工业革命
下面回顾一下人类历史上的几次工业革命:
❑ 第一次工业革命以蒸汽机的使用为标志,人类进入蒸汽时代。
❑ 第二次工业革命以电力的使用为标志,人类进入电气时代。
❑ 第三次工业革命则以原子能、电子计算机与互联网的使用为标志,人类进入生产力空前发展的时代。
长期以来,人工智能被寄予掀起第四次工业革命的厚望。一方面,人工智能系统在各个领域(棋类游戏、电子竞技等)不断挑战人类的纪录;另一方面,人工智能系统在落地的时候往往因缺乏常识、容易犯错等而被称为“人工智障”。在人工智能的发展史上,高潮和低谷总是相伴而行。
在这种起伏的过程中,科学家们不断重提通用人工智能(AGI)的概念。他们满怀希望地向社会描绘这一人工智能系统发展的长期目标,认为技术的“奇点”将最晚在2050年来临。到那时,智能系统会在以下能力上达到人类的水平:
❑ 自动推理。智能系统需要在不确定性的环境中做出决策,包括对扫描字符的识别、对音频文字的识别等。
❑ 知识表示。智能系统需要有表示知识的方式,包括常识知识库、领域知识库等。常见的表示方法包括逻辑判断语句、知识图谱等。
❑ 自动规划。智能系统需要对环境建立模型,并且知道各种操作的关系和后果,从而根据结果进行行动规划。
❑ 自主学习、创新。智能系统需要自我学习,尽可能减少对人工“教师”的依赖,更多地从环境观察中提炼知识。
❑ 使用自然语言进行沟通。智能系统需要理解人类语言,并使用人类语言表达自己,进行双向沟通。
❑ 集成以上手段来实现一个复杂目标的能力,比如自动驾驶等。
近十年来,图形处理器(Graphics Processing Unit, GPU)的发展为深度学习解决了算力障碍,大数据为深度学习解决了训练数据问题,使得深度学习技术在人脸识别、自动驾驶、语音助手等产品中得到广泛的应用。然而,这些产品在安全性、常识性等方面也常犯“低级”错误,表现出来的性能与人类相比可以说是相去甚远。因此,从科学界到工业界,仍然有部分科学家对这种人工智能系统的主流实现方法持保留态度,他们质疑这种堆叠神经元的“暴力美学”能否真的模拟人类的能力。
但是,这种质疑在2022年到2023年年初的时间里几乎销声匿迹了。2022年11月,OpenAI发布了对话大语言模型ChatGPT。GPT是生成式预训练模型的简称,自2018年发布第1版之后,4年间经过了4轮主要的迭代,最后一个版本GPT-3.5的参数量达到了1750亿。基于这一版本,OpenAI开发了多个微调后的分支,ChatGPT分支是专门用于对话的,它的多轮对话记忆能力、逻辑推理能力、意图理解能力和表达能力达到了前所未有的高度。以ChatGPT为代表,AIGC掀起了一个又一个令人振奋的高潮。GPT迭代的主要版本和时间线如表1-1所示。
表1-1 GPT迭代的主要版本和时间线
2023年3月18日,美国公司Midjourney宣布了第5版商业AI图像生成服务。与上一版本相比,第5版服务解决了AI生成图像细节不清晰等问题,可以生成适合电影画面比例的图像。有平面设计师评价道:“此前版本就像是近视患者没有戴上眼镜,而第5版就是戴上眼镜的清晰效果。”
2023年3月14日,OpenAI发布GPT-4。虽然GPT-3.5珠玉在前,但GPT-4仍然在短短几个月的时间里做到了百尺竿头更进一步。它不仅具备了多模态的能力,也修正了更多的常识缺失和逻辑谬误,并在司法、医生、哲学等专业考试中达到了人类考生前10%~20%的成绩(相比之下,GPT-3.5在人类考生中排名80%左右)。3月24日,OpenAI宣布GPT-4推出插件功能,赋予ChatGPT使用工具、联网、运行计算的能力,这意味着ChatGPT具备了作为平台的功能,AI技术迎来了“iPhone/Android时刻”。
2023年3月22日,Runway发布了Gen-2软件,该软件在第一代基于原视频进行自动改编的基础上,新增了对使用文本描述创建全新视频内容的支持。随着AI视频生成补齐了AI创作的最后一块拼图,下游应用进入了加速阶段。