第二章 人工智能技术地图
第一节 机器学习
一、机器学习是对人类学习的模仿
机器学习(Machine Learning, ML)是催生近年来人工智能发展热潮的重要技术。作为人工智能的一个分支,机器学习是人工智能的一种实现方法。从广义上来说,机器学习是一种能够赋予机器学习的能力,以此让它完成直接编程无法完成的功能的方法。但从实践意义来说,机器学习是一种利用数据训练出模型,然后使用模型预测的方法。
早在1950年,图灵在关于图灵测试的文章中就已提及机器学习的概念。
1952年,IBM的亚瑟·塞缪尔(Arthur Samuel,被誉为“机器学习之父”)设计了一款可以学习的西洋跳棋程序。它能够通过观察棋子的走位来构建新的模型,用来提高自己的下棋技巧。塞缪尔和这个程序进行多场对弈后发现,随着时间的推移,程序的棋艺变得越来越好。塞缪尔用这个程序推翻了以往的“机器无法超越人类,不能像人一样写代码和学习”这一传统认识,并在1956年正式提出了“机器学习”这一概念。亚瑟·塞缪尔认为:“机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。”
而有着“全球机器学习教父”之称的汤姆·米切尔则将机器学习定义为:对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完善,就称这个计算机程序从经验E中进行了学习。
如今,随着时间的变迁,机器学习的内涵和外延不断变化。普遍认为,机器学习的处理系统和算法主要是通过找出数据里隐藏的模式,进而做出预测的识别模式,是人工智能的一个重要子领域。同时,机器学习也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习从样本数据中学习,得到知识和规律,然后用于实际推断和决策。其与普通程序相比的一个显著区别就是需要样本数据,是一种数据驱动的方法。
机器学习与人类基于经验的成长有异曲同工之妙。我们知道,人类绝大部分技能和知识的获得需要通过后天的训练与学习,而不是天生具有的。在没有认知能力的婴幼儿时期,人类从外界环境中不断得到信息,对大脑形成刺激,从而建立起认知的能力。
要给孩子建立“苹果”“香蕉”这样的抽象概念,需要反复地提及这样的词汇并将实物与之对应。经过长期训练之后,孩子的大脑中才能够形成“苹果”“香蕉”这些抽象概念和知识,并将这些概念运用于眼睛看到的世界。
人类在成长、生活过程中积累了很多经验,并对其进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。
机器学习就采用了类似的思路。比如,要让人工智能程序具有识别图像的能力,就要收集大量的样本图像,并标明这些图像的类别,是香蕉、苹果还是其他物体。然后送给算法进行学习(训练),完成之后得到一个模型,这个模型是从这些样本中总结归纳得到的知识。随后,就可以用这个模型来对新的图像进行识别。
机器学习中的“训练”与“预测”过程可以对应人类的“归纳”与“推测”过程。由此可见,机器学习的思想并不复杂,其原理仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。