企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密
上QQ阅读APP看书,第一时间看更新

10.1 人工智能是什么,怎么做,前景为什么好

本节我们将探讨以下问题,理解人工智能是什么(What),怎么做(How),前景为什么好(Why)。

(1)人工智能是什么?它寻求实现什么?

“人工智能”一词是约翰·麦卡锡于1956年在新罕布什尔州达特茅斯大学的一次研讨会上提出的。人工智能是指机器所展示的智能,这种智能与人类的智能相同或优于人类的智能。人工智能的目标是使机器能够完成以下任务:

  • 感官感知:人工智能机器人应该能够感知和分类视觉、声音、触觉、味觉和气味的刺激。例如,视觉感知自动驾驶汽车可以绕开道路上的障碍;声音感知机器人可以为音乐作品的改进提供建议;触觉感知机器人可以让服装购买者通过电子方式触摸服装面料;味觉感知机器人可以帮人们选择最好的餐厅,气味感知机器人可以取代嗅探犬。
  • 自然语言处理:支持人工智能的机器人可以读、说和写人类语言,如英语、西班牙语等。
  • 因果推理:支持人工智能的机器人应该能够分析和理解任何问题的许多选项、可能性和场景,从而向人类提出最佳的行动方案。例如,启用人工智能的机器人应该能够诊断患者的疾病,分析各种药物对人体产生的可能的影响,建议最佳的治疗方案。

(2)如何实现人工智能的目标,通过哪些方法?

人工智能的目标将如何实现?图10-1展示了实现人工智能的可用方法:

图10-1 人工智能实现的方法

  • 基于规则的系统:提供软、硬件包,其中许多可能性已经硬编码写到系统中,通过预先编码的指令,系统被授权对输入提供响应,将提供一个完全准确的输出或响应。
  • 领域特定计算:是基于规则的系统扩展,其中整个软、硬件系统已明确编程,以响应特定工业领域内可能出现的许多输入。例如,自动驾驶汽车的特定领域计算系统将被专门编程,以响应许多可能的情况,如驾驶时可能出现的部分道路阻塞。同样,医学诊断的领域特定计算系统将被专门编程,以检查某些医疗参数并根据结果决定用药。
  • 机器人学:机器人学涉及运动学、动力学、系统结构、传感技术、控制技术、行动规划和应用工程等科学,研究机器人的控制与被处理物体之间的相互关系。例如,机器人可以清洁房屋或在餐馆里供应食物。
  • 机器学习:是实现人工智能最相关的方法,在这种方法中,计算机系统不需要针对可能出现的许多情况进行明确的编程。在这种方法中,系统会多次尝试以学习为导向来完成所需的任务,并收集和分析每次尝试的结果。通过对以往所有尝试的数据和结果的连续实时分析,系统继续学习、修改和改进其方法。例如,计算机系统不是通过任何显式编程指令来学习玩马里奥游戏,而是通过反复尝试玩,并根据之前所有尝试的结果不断改进其玩法。
  • 深度学习:是机器学习的一个子集,通过这种学习方式,人类神经网络的功能被模仿成“人工神经网络”。神经网络由三种类型的神经元组成:输入层、输出层和许多可能的隐藏层。

(3)为什么人工智能发展迅猛?

以下技术的发展推动了人工智能的最新发展。

  • 强大的计算能力:微处理器的处理速度和RAM的存储容量有了显著的进步,使得系统能实时处理和分析大量数据,并同时生成可用于改进机器人程序决策的见解。
  • 分布式计算:分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。
  • 物联网:从机械到个人的所有东西都可以通过互联网或内部网相互连接。因此,现在可以从所有这些相互连接的设备中收集大量的实时数据,可以进一步分析和处理这些数据,以获得更好的见解并不断改进自动化决策。
  • 深度学习的进步:最近的突破使科学家更清楚地了解了人类神经网络的结构和工作。
  • 在此基础上,科学家们开发出了人工神经网络,可以模拟人类神经网络,使机器人能够进行类人的学习和决策。

人工智能领域的发展代表了技术领域最重要的范式转变,越来越多的人不仅接受人工智能,而且对人工智能所能带来的诸多好处感到兴奋。科学家们正在尽一切可能努力确保人工智能的进步有助于提高所有人的生活质量。

本书的目标是带领读者开发出人工智能框架,该框架可以支持任意关于计算机视觉、语音识别、话语识别、演讲内容实时分析、自然语言处理等功能。自然语言处理类似于谷歌的Gmail系统,Gmail使用深度学习人工智能系统自动读取邮件的内容,根据阅读的内容给出建议性的回复,稍做修改就可回复对方。语音识别,例如,国内的快递人员可以直接使用语音报地址,系统识别的精准度在95%以上。计算机视觉涉及自动驾驶,监控,也涉及一些追踪系统。我们自己开发的人工智能框架和TensorFlow、PyTorch的功能是差不多的。例如,视频网站使用人工智能的框架技术,对于视频观看、视频监控都可以进行实时的处理,可以分析每一帧的内容。一个视频可能被上万人、上百万人或者上亿人观看,假设一个90min的视频,第5~8min看的人特别多,第60~65min看的人特别多,第88~90min看的人特别多,使用人工智能的计算机视觉对视频进行分析,就可以获取用户的偏好或者兴奋点,直接推荐用户最想看的视频。这不同于以前的推荐系统,以前的推荐系统的工作方式是可能某个用户喜欢看一个视频,就推测出另一个用户也喜欢看这个视频,这种推荐方式太原始了。

神经网络是分层次的,神经网络的分层到底意味着什么?为什么分层以后人工智能在图像识别、语音识别、自然语言处理中这么强大?也许读者会回答这是因为使用了深度学习网络,但问题的本质不是用不用深度神经网络,而是为什么深度神经网络这么强大。一旦知道深度神经网络之所以强大的根源后,不仅可以将其应用在图像识别、语音识别、自然语言处理方面以达到人类前所未有的高度,还可以应用在其他方面以达到前所未有的高度。以下是作者总结的观点:为什么分层导致了人工智能前所未有的突破?计算机做了以前人类从没想过计算机能做的事情,是因为,分层之后,第一层进行最原始的处理,第二层可以在第一层的处理结果上进行抽象,第三层可以在第二层的处理结果上进一步抽象,第四层可以在第三层的处理结果上进一步抽象……。神经网络真正代表的意义是人类在现实经验中不断进行抽象产生洞察力和智慧的过程,这是分层的神经网络的力量根源!也是人类自古以来的力量根源!所以分层的深度神经网络系统完整地实现了人类获得洞察力的过程!不要仅仅看见第一层、第二层、第三层……,这个没有意义,是第三层可以在第二层的基础上抽象,第四层可以在第三层的基础上抽象……这才是神经网络真正的强大之处,也是在视觉识别系统、语音识别系统、自然语言处理等诸多方面超越人类预期的根源!