1.2 人工智能擅长的和不擅长的
1.2.1 人工智能的局限和落地的依赖
当前阶段,人工智能能够在一定范围内具备推理和解决问题的能力,被称为“弱人工智能”阶段。在这个阶段,人工智能是拟人化的,只是从解决问题的角度上能够像人一样行动,但无法具备“自我意识”,如抽象、直觉、审美、情感等。现在的技术已经可以生产出自动驾驶的车辆,未来交通将在人工智能城市大脑的指挥下更加井然有序;医学影像分析系统可以辅助医生给病人看病;实时多语言翻译软件可以帮助我们无沟通障碍地出境游……在“感知层面”,人工智能已经在很多领域超过了人类,比如人脸识别、语音识别等,但它是可以执行的计算机程序,按照设计好的逻辑执行,不具备重新创造新任务的能力,也就是说当前人工智能无法做到以下两点:
• 不能像人类一样拥有“自主”意识,不能自己在场景中产生并完成任务,这样导致人工智能无法完成没有预先定义的任务;
• 没有“价值系统”,不能像人类一样在“认知层面”依靠理性的认知或感性的情感进行决策。
为了更加直观地说明人工智能的局限,我用人脑的智能来对比。现阶段相较于人脑的智能,人工智能存在以下四个劣势:
1.低效率
人工智能模型在运行和训练的时候需要“算力”支持,计算机在运算时的耗能要远超人脑。以“图像识别”举例,为了确保人工智能能够达到我们想要的准确率,深度神经网络模型结构需要几千甚至上万层,其中模型的参数是千万乃至上亿级别,这意味着人工智能在每次计算的时候,都要完整经过一次模型网络,需要的计算量规模也是上亿级别。人脑通过化学神经递质传播,平均每秒只能传导200次信号,并且每次传输的成功率只有30%左右[3],因此相对于人脑而言,人工智能的计算量要远远多于人脑。
2.难解释
人工智能的学习过程就像一个学生学习时只靠死记硬背,虽然刻苦,但不理解其中的因果关系,也很难向别人解释;虽然能够回答问题,但换个问题可能就不灵了。目前的人工智能在有明确执行步骤的场景下是有效且实用的,比如文字识别和录入等场景,但在医疗、公共安全、法律政策等需要因果解释的领域,因其解释性差而无法得到充分的信任,也无法和大众进行沟通,出了问题也无法为结果完全负责,因此目前对于可解释性要求高的医疗场景来说,人工智能只能作为辅助工具使用。
人工智能的学习过程可以简单理解为数学中的函数,像学习“y=k×x2+b”一样,给定一个输入数据,通过计算可以得到一个对应的计算结果,每个计算都可以理解成对一个函数的拟合,其中函数的参数是不需要提前指定的,可以通过数据的内在规律和多次迭代计算得到,那么整个人工智能模型里面就包含了成千上万个具有不同参数的计算公式,当这些计算公式放在一起,人就难以理解和解释了。总体来看,给定了什么样的数据,人工智能模型就会学习得到一组庞大的计算公式组合,因此从整体上对人工智能模型进行解释就比较困难。
3.难控制
人工智能运行过程中的环境是复杂多变的,由于有的算法具备在线学习和个性化服务用户的能力,这种人工智能很容易被数据“带跑偏”,也容易遇到处理不了的场景而失效。比如2016年3月23日,微软在社交平台上发布了一个聊天机器人Tay,这个机器人原先设定为“纯情少女”,居心不良的用户利用Tay模仿说话的漏洞,对Tay进行了错误的训练,只用了一天的时间就将Tay教坏了。如果是在企业的一些生产环节,如制造流水线上,或者是在系统中的核心环节发生这样的事情,那么这种“不可控”就可能会造成严重的问题或很大的损失。
虽然目前火热的GPT大语言模型强大到可以帮助我们创作小说、编写报告、写营销文案、做数学题,以及解决很多场景下的问题,以至于大家开始讨论通用人工智能(Artificial General Intelligence,AGI)是否触手可及,但我们在和GPT聊天的时候会发现大语言模型存在“胡编乱造”的情况,这是由于大语言模型在训练过程中存在“数据偏差”,当数据不够或者模型设计存在问题时,它就开始“天马行空”。
究其原因,主要有以下两个:
1)数据采集没有覆盖所有场景。人工智能是从数据中学习规律并在实际中应用的,数据在收集过程中难以覆盖场景下的所有情况,开发者也未必对所有情况考虑完整,因此遇到数据没有覆盖的情况时,人工智能可能就无法派上用场。
2)人工智能在场景中应用的时候,需要明确具体的目标。在学习阶段,人工智能的学习过程就是在追求目标收益的最大化,需要开发者事先设定好学习规则,当出现需要妥协或者需要做的事和“目标收益最大化”相违背的场景时,人工智能只会遵照之前设定好的学习规则来执行,这时候需要人为干预或者在人工智能的目标中增加限制条件来完善。
4.低泛化
人脑的学习模式是少样本学习,即“小数据,大任务”,而人工智能则是从大数据中学习来解决小的问题,即“大数据,小任务”。人工智能依赖大数据,人脑依赖小数据,比如我们新认识一个人,很快就可以记住他的样貌,人脑可以举一反三,但是深度学习、机器学习依赖大量的数据,没法做到,它要从数据中学习规律。这种模式使得人工智能在一个场景下学习好的模型很难迁移到新的场景之中。目前火热的迁移学习和预训练也只能在类似的场景下才能产生作用,比如识别动物种类的模型可以作为行人检测的预训练模型。
这也是在大语言模型问世之前,很多做企业端智能对话系统的公司很难规模化的核心原因——场景模型是“手动”生成的,就算不同客户公司的场景一样,数据的收集、处理方式、量纲、标注方式也会有偏差。
上述人工智能的局限,是由人工智能在实现过程中的方案造成的。人工智能在实现上有以下几个依赖,如图1-4所示:
图1-4 人工智能的依赖
1.依赖大型数据集
目前人工智能是从大量数据流中学习规律、知识,并在实际场景中应用,根据特定场景的数据训练的人工智能是面向业务、场景的,只能在特定场景下发挥作用,是不具备自我思考能力的、可顺序执行的计算机程序。
当数据量比较小的时候,人工智能模型(尤其是深度学习模型)往往无法取得好的效果,一来因为数据量小可能无法适应场景中的所有情况;二来无法学习到面向学习目标的规律,在这种情况下学习到的模型大多数类似于随机模型,就好像我们平时“掷骰子”一样。目前,从小数据中学习的有效学习算法还处在学界研究的前沿,如联邦学习、迁移学习(2.2.2小节将介绍五种主要学习方式)。
2.依赖人工经验
人工智能对于人工的依赖包含两个方面,一是体现在算法技术人员方面,需要用他们的经验来处理数据、选择适用的算法、优化模型的结构和参数,这些工作和落地的效果直接相关。二是体现在数据方面,无论是数据的收集还是数据字段的有效性判断工作都依赖标注人员(从业者)。从数据收集角度看,需要辨别哪些数据源是对场景内任务有用的,如果数据源有问题,再好的算法人员也无法得到想要的效果;同样,对于标注收集上来的数据,在监督式学习场景下,如果数据标注不准确,就会干扰人工智能模型学习的方向,进而影响落地的效果。
3.依赖深度网络结构
人工智能目前的广泛落地离不开深度学习的发展,传统的算法准确率在很多场景下达不到应用落地的程度,比如准确率在70%左右,深度学习使得准确率直接跃迁到90%以上,尤其是在图片、音频、视频领域的提高。相比传统的机器学习方法,深度学习可以将准确率提高30%~50%,因此在各个场景之中,研究者都在广泛地应用深度学习技术。深度学习通过多个隐含层和海量的训练数据来自动学习和构造有用的特征,这些特征是人难以识别和解释的。
从人工智能技术上的进展来看,这些问题在未来都会得到解决,目前不会影响人工智能在具体场景下的落地,互联网和企业数字化的发展也为人工智能提供了数据和环境,目前的局限性不会阻碍其发展。