1.1 机器学习定义
机器学习(Machine Learning,ML)是一门人工智能的科学,是技术和算法的结合,致力于从数据中获取学习模式。该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是实现人工智能的一种途径,和数据挖掘有一定的相似性,也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等,图1.1给出了机器学习知识图谱。机器学习更偏重于算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
机器学习是人工智能和神经计算的核心研究课题之一。机器学习问题解决计算机程序如何随着经验积累自动提高性能。
学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有不同的看法。
比如,Langley(1996)定义的机器学习是“一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”(Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience)。
Tom Mitchell的机器学习(1997)对信息论中的一些概念有详细的解释,其中定义机器学习时提到,“机器学习是对能通过经验自动改进的计算机算法的研究”(Machine Learning is the study of computer algorithms that improve automatically through experience)。
Alpaydin(2004)提出“机器学习是用示例数据或过去的经验对计算机进行编程以优化性能标准”(Machine learning is programming computers to optimize a performance criterion using example data or past experience)。
尽管如此,为了便于进行讨论和估计学科的进展,有必要对机器学习给出定义,即使这种定义是不完全和不充分的。顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍微严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,指的就是计算机,包括电子计算机、中子计算机、光子计算机或神经计算机等。
图1.1 机器学习知识图谱