机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

1.1 机器学习的目的:从数据到知识

人类最重要的一项能力是能够从过去的经验中学习,并形成知识。千百年来,人类不断从学习中积累知识,为人类文明打下了坚实的基础。“学习”是人与生俱来的基本能力,是人类智能(human intelligence)形成的必要条件。自2000年以来,随着互联网技术的普及,积累的数据已经超过了人类个体处理的极限,以往人类自己亲自处理数据形成知识的模式已经到了必须改变的地步,人类必须借助于计算机才能处理大数据,更直白地说,我们希望计算机可以像人一样从数据中学到知识。

由此,如何利用计算机从大数据中学到知识成为人工智能研究的热点。“机器学习”(machine learning)是从数据中提取知识的关键技术。其初衷是让计算机具备与人类相似的学习能力。迄今为止,人们尚不知道如何使计算机具有与人类相媲美的学习能力。然而,每年都有大量新的针对特定任务的机器学习算法涌现,帮助人们发现完成这些特定任务的新知识(有时也许仅仅是隐性新知识)。对机器学习的研究不仅已经为人们提供了许多前所未有的应用服务(如信息搜索、机器翻译、语音识别、无人驾驶等),改善了人们的生活,而且也帮助人们开辟了许多新的学科领域,如计算金融学、计算广告学、计算生物学、计算社会学、计算历史学等,为人类理解这个世界提供了新的工具和视角。可以想见,作为从数据中提取知识的工具,机器学习在未来还会帮助人们进一步开拓新的应用和新的学科。

机器学习存在很多不同的定义,常用的有三个。第一个常用的机器学习定义是“计算机系统能够利用经验提高自身的性能”,更加形式化的论述可见文献Mitchell T. Machine learning. New York: MaGraw Hill, 1997.。机器学习名著《统计学习理论的本质》给出了机器学习的第二个常见定义,“学习就是一个基于经验数据的函数估计问题”Vapnik V N. The nature of statistical learning theory. 2nd ed. New York: Springer-Verlag. 1999.(其中文版见:统计学习理论的本质,张学工译.北京:清华大学出版社,2000)。在《统计学习基础》这本书的序言里给出了第三个常见的机器学习定义,“提取重要模式、趋势,并理解数据,即从数据中学习”Hastie T, Tibshirini R, Friedman J H. The elements of statistical learning. Springer, 2003.。这三个常见定义各有侧重:第一个聚焦学习效果,第二个的亮点是给出了可操作的学习定义,第三个突出了学习的可理解性。但其共同点是强调了经验或者数据的重要性,即学习需要经验或者数据。注意到提高自身性能需要知识,函数、模式、趋势显然自身是知识,因此,这三个常见的定义也都强调了从经验中提取知识,这意味着这三种定义都认可机器学习提供了从数据中提取知识的方法。众所周知,大数据时代的特点是“信息泛滥成灾但知识依然匮乏”。可以预料,能自动从数据中学到知识的机器学习必将在大数据时代扮演重要的角色。

那么如何构建一个机器学习任务的基本框架呢?