TensorFlow深度学习应用实践
上QQ阅读APP看书,第一时间看更新

3.3 算法的理论基础

对于机器学习来说,最重要的部分是两个,即数据的收集以及算法的设计。在实际应用中,数据收集一般要求有具体的格式和要求,因此对其限制较多。而对算法的选择则较为灵活,可以根据需要选择适合数据流程的算法,从而进一步训练模型。

3.3.1 小学生的故事——求圆的面积

圆是自然界中比较特殊的图形,从古至今世界上对其进行的研究都非常深刻,甚至于将其视作神圣的图形进行膜拜。而对于数学家来说,求圆的面积,确实是对数学家能力的一次重要考验(图3-4)。

图3-4 这个圆的面积是多少

直接计算圆的面积很难。为了解决问题,数学家们想了很多办法,其中最简单的是使用替代法,即寻找一个矩形,使其面积能够等于或者近似等于圆的面积。

我国古代的数学家祖冲之,从圆内接正六边形入手,让边数成倍增加,用圆内接正多边形的面积去逼近圆面积;古希腊的数学家,从圆内接正多边形和外切正多边形同时入手,不断增加它们的边数,从里、外同时去逼近圆面积;古印度的数学家,采用类似切西瓜的办法,把圆切成许多小瓣,再把这些小瓣对接成一个长方形,用长方形的面积去代替圆面积(图3-5)。

图3-5 求解圆的面积

众多的古代数学家煞费苦心,巧妙构思,为求圆面积做出了十分宝贵的贡献,为后人解决这个问题开辟了道路。他们的方法无外乎使用近似的方法,将一个圆切分成若干小等份,组合成一个矩形来替代圆。

这也是微积分的数学基础。

3.3.2 机器学习基础理论——函数逼近

对于机器学习来说,机器学习算法的理论基础即函数逼近。

在机器学习中,能够对标识或未标识的数据进行分类是机器学习的最终目的。分类的确定是由学习模型所创建的,而模型的建立则又是根据算法的不同去拟合和创建。

在机器学习的理论中,对于数据模型来说,找到一个完全符合数据分类的模型是不可能的,因此,借助于更多更细的对数据的划分去创建一个可以划分数据的模型是可行的。

图3-6展现了一个对不规则曲线求面积的方法。对于不规则的面积,一般情况下很难直接计算到面积的准确大小。但可以通过变相的,将更多的小矩形组合在一起,求出小矩形的面积之和时,近似地视为曲线面积之和。

这就是函数逼近的方法。

图3-6 面积函数逼近图

一般来说,函数逼近在机器学习中是一个巨大分类,其中包含着多种拟合方法和算法。图3-7展示了机器学习主要算法的分类。

图3-7 机器学习基本算法

机器学习的基本算法内容包含多种机器学习的成熟算法,使用范围也相当广泛,在本书的后续章节中会逐一进行介绍。一般来说,函数逼近问题被划分在预测算法之中,主要应用在自然语言处理、网络搜索服务以及精准推荐等方面。

本节主要介绍机器学习中的函数逼近,其中最常用、最重要的方法被称为回归算法。