AI大模型安全观:通用人工智能的应用场景、安全挑战与未来影响
上QQ阅读APP看书,第一时间看更新

1.1 ChatGPT会成为人工智能的拐点吗

1.1.1 引发全球关注的ChatGPT

ChatGPT(Chat Generative Pre-trained Transformer)是美国硅谷一家名为OpenAI的公司开发的人工智能聊天机器人程序。它可以用高度拟人化的交流方式,生成十分自然的回复。与传统意义上的人机对话系统相比,ChatGPT是一个以自然语言为交互方式的通用语言处理平台。除了对话,ChatGPT还可以进行文学、媒体领域的创作,在某些测试情境下在教育、考试等方面的表现优于普通人类测试者。ChatGPT基于OpenAI在2020年发布的GPT-3.5模型,在应用层进行了强化训练,提高了对话质量。因此,有专家称ChatGPT是“首款面向消费者的人工智能应用”。

ChatGPT具有很强的反馈性学习能力,具备一定的联想能力和记忆能力。2022年,该应用上线不到一周,使用量就突破了100万人次;上线两个月,使用量超过1亿人次。

ChatGPT不仅能够满足回答问题、撰写代码、书写论文等需求,而且通过了美国明尼苏达大学法律与商业研究生考试和沃顿商学院的商业管理考试。比尔·盖茨也评价说:“ChatGPT这种人工智能技术的出现,其历史意义不亚于互联网和个人计算机的诞生。”同时,微软宣布将ChatGPT等应用整合到旗下所有产品中。国内的互联网公司也开始纷纷入局,着手推进大模型研发和相关业务落地。表1-1梳理了GPT系列构架发展的技术里程碑。

表1-1 GPT系列架构基本情况[1]

在能力表现上,ChatGPT具有主动承认错误、质疑不正确的问题、承认自己回答不准确、支持多轮对话等功能。尤其是ChatGPT在对话过程中会记住使用者与其之前对话的内容,从而具有理解上下文的能力,极大地提升了对话交互的用户体验,让使用者眼前一亮。《自然》杂志(Nature)曾通过在线问卷的形式,对600多位读者进行调查(见图1-1),调查问卷结果显示,有22.3%的人每周使用ChatGPT或者类似的AI工具一次及以上。

图1-1 使用人工智能工具的频率调查结果

更进一步,麻省理工学院的施柯德·诺依(Shaked Noy)和惠特尼·张(Whitney Zhang)两位教授牵头,组织了444名白领参与一项社会实践,以测试ChatGPT在提升生产力方面的表现如何。测试结果被总结成了论文,参加测试的人员被均等地分为两个对照组,其中A组被允许在工作的时候使用ChatGPT,包括撰写报告、分析财务数据、整理素材等;B组则被禁止在工作中使用ChatGPT。两组测试人员的工作完成之后,其提交的文档被交给独立的考核团队进行质量评估。结果显示,使用ChatGPT的A组完成工作的平均时间为18分钟,B组则平均花费了27分钟。按照每天8小时工作制来换算,ChatGPT可以帮助这类员工提升33%的生产力。同时,在质量方面,考核团队对A组的打分平均为4.5分,B组则是3.8分。可以看出,ChatGPT输出的结果也提高了使用者的工作质量。

具体到文本类的工作,大体可以分为内容构思、撰写草稿、修改润色。未使用人工智能工具时,这三项工作分别平均耗时7分钟、15分钟、5分钟,总时长需要约27分钟。使用人工智能工具以后,这三项工作分别平均耗时3分钟、7分钟、8分钟,总共花费18分钟,如图1-2所示。我们可以看到,ChatGPT在内容构思、撰写草稿方面可以大幅缩减耗时,为写作者提供帮助,提高效率。不过,同时我们也发现,使用人工智能工具之前,修改润色所需要的时间占比相对较短,而使用人工智能工具以后,人们花在修改润色上面的时间要多于之前。毕竟,人工智能工具提供的素材、语序不一定是写作者完全喜欢的,人们需要对这些基础素材进行二次加工,变成属于自己的内容。

图1-2 使用人工智能工具与否在写作工作方面耗费时长的对比

1.1.2 ChatGPT的显性优势

大家应该对聊天机器人并不陌生,Siri、小冰等都是很受欢迎的聊天机器人。ChatGPT之所以激发了大家的好奇心,主要在于ChatGPT的能力远远超出了人们的预期,甚至在一些问题的回答上不但比搜索引擎更高效,而且答案涵盖的知识面比普通人所学的还要广。总的来说,ChatGPT有以下优势。

1.交互简单

ChatGPT可以解析自然语言输入,理解用户的意图,并根据用户的要求提供相应的反馈。这种方式不需要用户了解任何编程语言或特定的指令。这样简单的交互方式,使得它的用户从专业技术人员直接扩展到普通民众,受众面极广。没有编程能力的人也可以使用该程序快速输出属于自己的作品,这一点对大众来说极具吸引力。可以说,ChatGPT从技术层面降低了程序创作的门槛。

2.应答流畅

ChatGPT交互界面极其简单,用户打开界面、输入问题就可以很快得到答案。这一策略对于ChatGPT“出圈”有较大帮助。回顾过去几年,互联网上的现象级产品都是极简主义的典型代表。同时,ChatGPT可以根据用户的历史对话记录和个人信息来提供个性化的响应。这种方式可以使ChatGPT更加人性化,增强用户的归属感和满意度。尤其是可以记住之前的对话内容,并在后续的交互中使用这一点,意味着ChatGPT能够基于上下文提供更有意义的回应,从而使对话如同人类之间的对话一般连贯和流畅。

3.理解智能

大众对一个智能体的理解,其核心要义是它要“像一个人”,类似于我们说家养的宠物容易“通人性”。这是一种典型的上帝视角,我们潜意识里认为人类是最聪明的,所以宠物或者机器具有某些“像人”的特征后,我们就会认为它聪明、可爱、值得交往。

ChatGPT的一大特点就是交互方式智能,看起来“像人”,所以人类更容易认同它的价值。不过,需要指出的是,ChatGPT的表现并不能说明人工智能有了“心智”,ChatGPT表现出来很强的“创造性”是因为自然语言语料中包含了语义、逻辑,模型在训练过程中找到了这些内容在统计学意义上的对应关系,所以人工智能看起来似乎“开窍”了,但实际上只是在统计学意义上符合我们的认知理念而已。

4.发布策略

据报道,OpenAI在2022年年中的时候就向微软的高层演示了ChatGPT,这为后续微软愿意投资上百亿美元,在微软全线商业体系中加入ChatGPT奠定了基础。很显然,这样的决定一定要有充足的准备,并非临时起意。这里面既要有对技术的积累,又要对现有产品实现无缝对接,因此有理由相信,OpenAI发布ChatGPT的时间以及微软的整体策略是经过多轮评估之后确定的。

对于底层操作系统、复杂的云架构设计等,ChatGPT还难以独立实现。对于软件设计开发,ChatGPT可以提供更多支持,完成部分基础工作,这对软件行业的发展其实是有利的,可以让更多参与者进入该领域,投资也会更加广泛,对人类的创造性也是巨大的释放。因此ChatGPT不适合做从0到1的创新与应用,更适合聚焦从1到N的项目,帮助用户在搜索信息之后做二次加工,如总结、分类、纠错或者是模糊推理下的创作,即对创作精度要求不高的领域。ChatGPT在这些领域会有更加广阔的发挥空间,可以为用户提供一些支持方案。截至2023年2月,亚马逊平台上已经有超过200本ChatGPT署名创作的图书。从事销售工作的布雷特·希克勒,利用ChatGPT在数小时之内完成了一本30页的儿童读物《聪明的小松鼠:储蓄和投资的故事》,该书在2023年1月通过亚马逊平台出售,电子版售价为2.99美元,纸质版售价为9.99美元,截至同年2月底,已经帮助作者赚取了上百美元。

ChatGPT就像初生时期的汽车、电话或者互联网,正在以前所未有的速度让原本分散的各领域自然语言处理算法“飞入寻常百姓家”,影响到几乎所有人。可以说,人工智能已经不是现实世界的简单复刻,而是人类想象力的延伸。ChatGPT带来的新特点使得人与计算机之间的交互更加自然、智能、高效和个性化。这种方式可以提高用户的满意度和归属感,促进数字化转型和智能化发展。有专家曾经形象地比喻说:“如果说传统的机器学习或者人工智能是在水下1米的深度进行探索,那么深度学习的出现将我们带到了100米的深水区,而GPT等架构的出现和广泛应用,将使用户可以直接抵达马里亚纳海沟,在万米海底进行自由探索。”

1.1.3 ChatGPT的前世今生

ChatGPT的出现并非一蹴而就,其背后有着大量的技术和工程积累。因此,回顾ChatGPT的底层技术创新历史(见表1-2),可以让我们更加全面地理解ChatGPT为生成式人工智能作出了那些贡献。

表1-2 深度学习技术发展的关键点

1.标记数据驱动监督学习阶段

深度学习是驱动当前人工智能领域发展的一个关键因素,2012年,基于标注数据驱动的深度学习模型,推动人工智能技术不断提升,并且在计算机视觉和语音识别领域获得了商业上的成功。但这一时期,人工智能的发展受限于标注数据的数量,需要人工进行打标签,来告诉机器什么是狗、什么是青蛙。随着模型参数逐渐增多,需要求解大量模型参数,因此,相应地需要足够多的训练数据作为约束。但是获得足够多的标注数据成本较高,尤其是模型参数达到亿级之后,标记数据的容量难以有效提升,这限制了监督学习模型的规模发展和应用范围。

2.自监督预训练大模型阶段

2017年,随着Transformer的出现,自监督预训练的思想开始为大家所接受。Transformer的注意力机制无须标注数据,仅仅利用文本语料就可以对模型进行训练。这一理念的提出,使海量的互联网优质语料不需要进行人工标记,就可以用于训练,使得训练数据量大大增加。Transformer作为之后很多模型的基础,其注意力机制让机器可以像人一样快速找到句子里的关键词,达到“一目十行”的效果,利用大量非标注数据完成自主训练得以实现。

2019年,基于海量互联网数据以及大模型的自主训练,BERT模型的效果远远超过以往其他的数据模型,并且在不同任务之间具有较好的通用性。

OpenAI也是Transformer的受益者。2018年,OpenAI推出GPT-1,其也是利用自监督预训练的理念来训练文本生成内容,主要包含两个阶段:第一阶段是先利用大量无标注的语料预训练一个语言模型;第二阶段是对预训练好的语言模型进行精调,将其迁移到各种有监督的任务上。

但是GPT-1的效果并不够惊艳,甚至可以说平平无奇。不过OpenAI并未放弃,在BERT出现后不久,就对外发布了GPT-2,此时GPT-2的模型大小和训练数据规模较GPT-1有了不小的提升。2020年7月,GPT-3正式对外发布。在使用这个通用语言模型时,用户只需要提出一段简单的描述,说明想要生成的内容,就可以在没有重复训练的情况下,生成可以执行的代码、网页或者图标,甚至完成诗歌的撰写和音乐创作。

因此,自监督预训练技术使得可用来训练的数据呈现几何式增长,在海量数据的加持下,模型的规模也开始出现指数级的提升,目前一些模型的参数已经达到万亿级。“Transformer+GPT+互联网无标注数据”让模型变得可规模化。至此,基于自监督预训练的模型迈入了通用大模型的时代。

在GPT-3出现后的几年时间里,人工智能的一个重要研究方向就是把多模态统一到一个模型当中,即尝试把图像、文本、语音等不同的数据统一标识在一个模型里面。其中,CLIP模型实现了文本和图像的衔接。在内容生成领域,扩散模型的出现使得人工智能生成内容的功能为人们所熟知,尤其是文本生成图像的功能有了很多实质性的进展。甚至有人把AIGC(Artificial Intelligence Generated Content,即人工智能生成内容)直接当作文字生成图像的代名词。这一时期,DALL·E2、Stable Difusion的出现,正是基于扩散模型和CLIP在文本-图像领域的海量数据,从而构建起了文本和图像语义之间的对应关系。其生成的结果非常惊艳,甚至让很多人认为人工智能可以进行自主“创新”了。

3.大模型基础上的垂直领域突破阶段

2022年11月,ChatGPT的出现让我们体验到了不一样的地方。作为一个通用聊天机器人,用户可以用平常与朋友交流的口吻和ChatGPT进行交流,而且ChatGPT能够持续多轮进行流畅沟通。ChatGPT的技术突破,是在自监督预训练模型的基础上,结合基于少量优质数据反馈的强化学习技术,形成模型和数据的闭环反馈来实现的。其中的商业价值在于,对以搜索引擎为首的应用和产品加以重构,这将给整个自然语言技术领域带来收益,并且将扩散到生命科学、自动驾驶等多个应用领域。

需要指出的是,ChatGPT不是一两个研究人员所做的算法突破,它的发展需要足够多的资源支持,如深度学习训练的技术发展、高端人才的集群,同时结合工程创新能力,发展到今天才孕育出最终的应用突破。现阶段,大家倒不必高估ChatGPT短期的表现,但是在未来,它的长期价值不容小觑。

额外知识

监督学习是一种机器学习的方法,是指对带有正确答案的训练数据进行学习,并输出结果。举个例子,如果你想训练一个模型,让其识别不同类型的动物,那么在监督学习模型中,你需要提供大量带有标签的动物图片,每张图片都要被人工标注这是哪种动物,如小猫或者小狗。然后,你的模型会根据这些训练数据来学习如何识别不同种类的动物。类似的应用还有短视频,当你在给短视频点赞、转发、留言的时候,实际上就是在给这类内容打标签,告诉模型你喜欢这一类型的视频,后续模型会根据你的观看时长、点赞等内容来做重点推送。

无监督学习是另一种机器学习的方法,不需要我们提供带有正确答案的训练数据。相反,它只需要一大堆原始输入数据,然后通过对数据的分析来发现数据之间的关系和模式。例如,我们给模型输入大量没有标记的图片,让它通过无监督学习训练模型发现这些图片中出现最多的特征,可以是颜色或者形状。模型可能会发现许多图片都是圆形的,而且大部分图片都是绿色的,从而得出它的结论。

强化学习则是通过试错和反馈机制让模型学习如何完成任务。强化学习的目标是通过反复尝试来找到最优解,从而让模型在完成任务时获得最大的奖励。例如,你要训练一个模型来玩俄罗斯方块。在强化学习中,你的模型会不断尝试移动方块,直到完成一个得分最高的游戏结果。在这个过程中,模型每次移动方块都会得到反馈,可能是奖励也可能是惩罚。通过不断尝试和反馈,你的模型可以学习如何完成这个任务,从而获得最大的奖励。

1.1.4 构建ChatGPT的三大要素

人工智能的发展离不开数据、算法和算力的支持。从这三个方面来看,ChatGPT有以下特点和优势。

1.数据

ChatGPT在3000亿单词的语料上预训练模型,其中训练语料有60%来自2016—2019年的C4(Colossal Clean Crawled Corpus)语料库,而C4是当前全球著名的网络文本语料库之一。有12%的语料来自WebText2,包括谷歌、电子图书馆、新闻网站、代码网站等丰富的网页文本,其余的训练语料则来自各类图书、维基百科等。很明显,从数据方面来看,ChatGPT的“学习资料”主要来自各类用户生成的内容。同时,ChatGPT引入了代码数据。代码是一种逻辑较为严谨的文本,并且函数之间的调用关系本质上是将复杂问题拆解为多个小问题,因此引入代码数据来训练模型可以有效提升模型的思维链能力。

从2012年深度学习技术诞生开始,大家就尝试把更多的算力和数据灌入一个模型,让人工智能具有更强的能力,目前全球主要人工智能研究机构依然在这一逻辑的指引下开展工作。同时,人类大脑有较多的神经元和神经突触,其中人脑的神经元超过1000亿,神经突触大约有几万亿个。当前ChatGPT的参数已经超过1000亿,这个数量与人脑神经元数量基本接近。在数据方面,ChatGPT拥有一个巨大的先发优势——通过对外开放可以收集大量用户的使用数据,这些数据弥足珍贵。这就像滚雪球,只要OpenAI依然保持较好的发展水准,那么雪球只会越滚越大,后发者难以追上。同时为了避免ChatGPT输出有害信息,OpenAI请印度、肯尼亚的标记公司来标记样本中的有害信息,从而避免这些信息成为模型的训练数据,这也是OpenAI多年以来建立的数据壁垒。

2.算法

交互是一种学习手段而不仅仅是应用。在大模型训练中,当模型参数达到一定规模之后,人的反馈价值远超模型参数和计算量的价值。ChatGPT的核心进展是与人的协同和交互学习能力提升,而不只是模型变大,这对产品创新、人机协同创新、知识发现意义重大。提升人工智能系统的协同与智能交互能力,让人工智能以交互学习的方式理解人的意图、做复杂推理,通过协同让人更擅长做决策,这是未来人工智能的发展方向。具体来看,ChatGPT基于人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)算法,具备理解上下文关系(即语义推理)的能力,从而生成相应的回答,同时能够不断学习新的知识,更新模型参数,以适应不断变化的语言环境和应用场景。复旦大学的邱锡鹏教授将这一训练过程总结为三个步骤。

第一步,研发人员从指令集中采样指令作为输入数据。这些数据中包含大量人类真实意图。同时,OpenAI聘请标注人员根据收集到的用户需求撰写高质量的范本,从而向机器示范什么样的回复更符合人们的期望和需求。这部分数据是一个高质量的小数据集。数据收集完成后,研发人员使用GPT-3.5在该数据集上进行有监督的微调。

第二步,对微调后的模型进行“考试”。研发人员再次从指令集中向模型输入数据,并对输出的结果进行好坏排序。通过大量数据的输入,标注人员可以对模型输出进行打分排序,得到这些人工标注的输出顺序之后,研发人员就可以训练得到一个打分模型。

第三步,在获得打分模型之后,接着从指令集中采样新的指令作为输入数据,并结合打分模型,使用强化学习算法来训练得到最终的ChatGPT。

这一算法使ChatGPT拥有以下三个特点。

第一,ChatGPT回答的内容较为详细,甚至冗长。

第二,当涉及政治敏感事件的时候,ChatGPT给出的回答通常较为中性。

第三,拒绝知识范围以外的问题,例如ChatGPT的训练数据集的信息更新至2021年,因此,2022年发生的事件不在其知识范围内。

3.算力

ChatGPT的基础是GPT-3.5模型,GPT-3.5在Azure AI基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约3640PFLOPS-days,即每秒1000万亿次计算,运行3640天[2]。以算力500PFLOPS、投资30亿元的数据中心为例,要支撑ChatGPT运行,至少需要7~8个这样的数据中心,基础设施投入达数百亿元。

总的来看,ChatGPT是“算法+资本+算力+数据+训练”的产物。它在技术水平上不一定比其他的人工智能产品更创新、更先进,但为我们打开了另外一扇门,那就是高水平的大模型也可以是开箱即用的。可以看出,ChatGPT实现了人工智能预先编程、预先草拟内容,并由人类进行修改的过程。也就是说,用户跟它交互越多,就越能获取更加精准的答案,这些优势会拓宽ChatGPT的应用场景,同时提升用户的使用体验,其中的效率提升和价值是不言而喻的。

1.1.5 ChatGPT技术创新点

一直以来,通用人工智能与专用人工智能走了两条不同的发展路径。专用人工智能如计算机视觉或者自然语言算法等有较好的应用。但是,ChatGPT的出现让人们意识到,通用人工智能也有很多优势,那就是可以用一个统一的大模型来尝试解决所有问题。这也是ChatGPT超出大家预期的地方,即人工智能出现了一些人脑独有的能力,甚至包括逻辑判断等。这在之前的机器学习领域是不存在的。综合各方学者的观点,具体来看,ChatGPT有以下关键技术创新。

1.情景学习(In-context Learning)

情景学习能力是ChatGPT比较有代表性的能力之一。直观来讲就是用户可以边教方法,ChatGPT边按图索骥进行学习并输出结果。尤其是对于没有执行过的任务或者问题,只需要给ChatGPT几个任务实例作为输入,就可以让ChatGPT在给定的情境中学习新任务并给出较为满意的答复。这期间我们并不需要对模型进行重新训练,因此这种方法能够有效提升模型小样本学习(Few-shot Learning)的能力,如图1-3所示。

图1-3 情景学习的案例

2.思维链(Chain-of-Thought,CoT)

思维链也是ChatGPT比较典型的能力“涌现”。思维链的形成机制可以简单理解为,对提问者的问题进行进一步拆解,按步骤解答。例如,对于逻辑性比较强的复杂问题,大模型的答复有时候并不准确。为此,提问者可以对问题进行拆解,从而让大模型理解如何进行问题的分析,并给出满意的答复。更进一步,甚至不需要给出示例,只需要告诉大模型需要一步步思考,也能够得到较为满意的结果。

在这个过程中,每一步思考的结果都被作为第二次输入的数据,这样大模型就能够对上一步的输出进行整合,从而实现对复杂问题的解答。有专家指出,ChatGPT思维链能力的出现,得益于大模型的训练数据中存在大量代码数据,由于代码有较强的逻辑性,因此可以提升模型的思维链能力。思维链技术能够激发大模型对复杂问题的解决能力,这也被认为是大模型能力涌现的关键,即能够拿到人工智能竞技的“入场券”。

3.自然指令学习(Learning from Natural Instruction)

自然指令学习就是在对模型训练的过程中,在输入前面增加“指令”(Instruction),具体的任务以自然语言的形式来描述。指令学习(Instruct Learning)构造了更符合自然语言形式的训练数据,从而可以有效提升大模型的泛化能力。同时,大模型的可扩展性较强,很容易与外界打通,可以不断地和外部世界进行互动,对知识进行更新迭代,从而实现能力的同步提升。

目前,已经有大量关于ChatGPT的能力测试。比如,国内复旦大学的邱锡鹏教授使用高考题目对ChatGPT进行了测试。他认为,使用高考题目进行测试,主要由以下优势:一是高考题目具有较强的挑战性和灵活性;二是机器和人类答同一套试卷的考试成绩可以量化、更加直观,而且人类历年高考成绩已有数据,有现成的对照组;三是高考题目数量多、涵盖领域广、质量高;四是历年高考题目难度水平较为稳定,便于测试人员进行多次分析。

从测试结果来看,在客观题方面,除了带图题、听力题之外,全部126个样本数可以达到76%的准确率和67%的得分率。客观题能力与两名500分左右的高考生(文科、理科各一名)相当。在主观题方面,历史、地理、政治方面成绩较好,得分率达到78%,生物得分率为50%,数学、物理、化学、历史方面得分率为30%。

1.1.6 ChatGPT架构图

ChatGPT是大模型的一种应用,要想实现这种应用,不仅需要在模型层面进行全面构建,而且需要云计算、深度学习框架的有效支撑。从下至上,我们可以看到ChatGPT的顺利实现实际上需要五层能力环环相扣(见图1-4)。

第一层是由微软云Azure来提供算力资源,并且它也是OpenAI的独家云服务提供商。

第二层则是深度学习框架PyTorch,该框架易于使用,而且API迭代更稳定。

第三层是基础模型,即我们熟悉的Transformer。Transformer利用注意力机制,使用较少的参数来完成自然语言处理,效果好、速度快。OpenAI在Transformer被提出的第二年,就基于此框架构建了预训练语言模型GPT,从此走上了大规模预训练语言模型的探索之路。GPT一族的模型都是基于Transformer进行研发的。Transformer的高并行性使得其很容易扩展到大规模模型上面。这为模型能够从海量数据中学习更多知识、提升知识储备,奠定了基础。

第四层是大家熟悉的GPT-3,GPT-3作为OpenAI推出的大模型,可以称得上是真正的大语言模型。2021年,OpenAI提出了CodeX模型,并在GPT-3的训练数据中引入代码数据,从而推动模型从代码数据中学习较为严谨的逻辑结构和问题拆解能力。同时,引入了思维链。

图1-4 ChatGPT技术架构

第五层是InstructGPT/GPT-3.5。它是GPT-3的升级版,包括了人类反馈强化学习模型RLHF。InstructGPT是OpenAI在2022年提出来的,它使得GPT能够理解更贴合人类自然语言的指示,并根据该指示生成正确的文本内容。

通过以上算力、框架、模型的协同努力,才造就了ChatGPT。在ChatGPT的基础上,可以构建出对话虚拟人、语音工作助手、人工智能客服、机器翻译、无代码编程、对话类搜索引擎、小说生成、语音陪伴等多种应用。

1.1.7 ChatGPT潜在的应用领域

ChatGPT将从五个方面推动产业变革与模式创新:一是改变现有人机交互模式,未来人们可能用自然对话的方式与智能产品交互;二是改变信息分发获取模式,基于认知智能技术,可以实现更高效的信息整合与生成,之后再推荐给用户;三是革新内容生成方式,ChatGPT上线后便被大量应用于公文写作、邮件编写、代码编程等,这将进一步拓展普通人利用人工智能进行创新和生产创意内容的能力;四是提升生产效率和丰富度,ChatGPT被集成到现有应用软件中后,可以进一步提升内容的生产效率和丰富度,改变人们的办公方式,同时还会带动音视频、图像等生成式人工智能的发展;五是加速人工智能在科研领域的落地。随着科研数据越来越多,未来ChatGPT将有望帮助科研人员提供研究建议,推动新的理论探索和发现。

具体来看,ChatGPT在应用方面,有以下几个场景值得关注。

1.搜索引擎

ChatGPT将在搜索引擎领域引发巨大变革。传统的搜索引擎根据关键字来呈现结果,虽然在信息准确度上较高,但是在找内容方面比较费时费力,需要用户不断地做二次筛选和确认。ChatGPT可以让搜索以对话形式呈现,直接给出比较准确的答案,并为更加复杂的搜索提供创造性的答案。传统搜索引擎是帮助我们整理过去的内容和信息。但是以ChatGPT为代表的生成式人工智能工具可以帮助我们处理未来我们想要做的事情。两者在时间轴上处于两个不同的方向,一个回首过去,另一个面向未来。这种方式有望全面升级甚至取代当前的信息检索方式。谷歌CEO桑达尔·皮查伊(Sundar Pichai)坦陈:“ChatGPT颠覆了20多年来传统的基于链接的搜索模式。”Gmail创建者之一的保罗·布赫海特(Paul Buchheit)甚至表示:“ChatGPT会在一两年的时间里颠覆搜索引擎,就像当年搜索引擎颠覆黄页电话簿一样。”同时,微软与OpenAI共同开发了一款具备人工智能对话能力的新版本搜索引擎New Bing;百度也有类似的规划,并将其定位为“引领搜索体验的代际变革”;谷歌在2023年4月初也宣布,在谷歌的搜索中集成类ChatGPT对话式人工智能功能模块。

2.日常工作

ChatGPT可以自动协助用户生成会议记录,即使用户没有参加会议,也可以帮助用户生成会议记录和要点。会议中每个人的发言和时间节点都会有效显示。在编写电子邮件方面,ChatGPT也在发挥实际作用,微软推出的Viva Sales功能可以为各种场景生成推荐的电子邮件内容,包括回复询问、创建提案等。如此一来,销售人员花费更少的时间即可编写电子邮件,Viva Sales甚至可以提醒工作人员要跟进哪些潜在的客户。同时,ChatGPT在修复程序缺陷方面也大显身手。近日,来自英国、德国的研究人员专门对ChatGPT的该项能力进行了测试,在40个代码错误中,ChatGPT准确修复了其中的31个,人类程序员仅修复了21个,ChatGPT在这方面遥遥领先。

3.教育

ChatGPT可以成为帮助学生解答各种问题的陪伴机器人,尤其是经过学科数据训练的ChatGPT,可以像老师那样一对一地给学生答疑,甚至可以做到个性化学习素材的编写。例如,学术工具Numberade发布了人工智能导师Ace,它可以为学生生成个性化的学习计划,根据学生的能力来制定有针对性的教学内容。基于海量的数据和文章内容,学生甚至可以与历史人物进行互动,如与林肯、柏拉图等重要历史人物交谈。未来,知识问答、短视频生成、本地生活、智能客服等都将成为ChatGPT类技术应用的场景和方向。创业企业可以在大模型的基础上,利用自身的数据进行升级优化,实现更多有护城河的场景落地。

iPhone出现的时候,业内专家也普遍认为它并没有推出什么颠覆性技术,更多的是对现有技术的集成。但是当时人们忽略了iPhone是首个为了“适应用户”而设计的智能手机,并非是为了“解决问题”而设计的智能手机。正是基于此,iPhone的交互方式和传感器让其成了用户身体的一部分,一个带来更多信息和更多高效交互的“器官”。类比到ChatGPT,我们会发现其已经具有让用户直接使用人工智能(包括其中的算力和数据)的里程碑意义了[3]