1.4 归纳偏好
在“房价预测”的例子中,当选用一元线性回归算法时,学得的模型是一元一次函数;当选用多项式回归算法时,学得的模型是一元二次函数。所以,不同的机器学习算法有不同的偏好,我们称之为“归纳偏好”。对于“房价预测”这个例子来说,在这两个算法学得的模型中,哪个更好呢?著名的“奥卡姆剃刀”原则认为,“若有多个假设与观察一致,则选最简单的那个”,但是何为“简单”便见仁见智了。如果认为函数的幂次越低越简单,则此时一元线性回归算法更好;如果认为幂次越高越简单,则此时多项式回归算法更好。由此可以看出,该方法其实并不“简单”,所以并不常用,而最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。测试集是指由训练集之外的样本构成的集合,例如在“房价预测”问题中,通常会额外留有部分未参与模型训练的数据来对模型进行测试。假设此时额外留有1条数据——(年份:2022年;学校数量:3所;房价:70000/)用于测试,模型的预测结果为,预测正确;模型的预测结果为,预测错误。因此,在“房价预测”问题上,我们认为一元线性回归算法优于多项式回归算法。
机器学习算法之间没有绝对的优劣之分,只有是否适合当前待解决的问题之分。例如,上述测试集中的数据如果改为(年份:2022年;学校数量:3所;房价:90000/),则结论便逆转为多项式回归算法优于一元线性回归算法。
1.4.1 式(1.1)和式(1.2)的解释
① → ②:
② → ③:首先要知道此时我们假设是任何能将样本映射到的函数。当存在不止一个时,服从均匀分布,即每个出现的概率相等。例如,当样本空间中只有两个样本时,。那么所有可能的真实目标函数如下:
一共有个可能的真实目标函数。所以此时通过算法学习出来的模型对每个样本无论预测值是0还是1,都必然有一半的与之预测值相等。例如,现在学出来的模型对的预测值为1,即,那么有且只有和与的预测值相等,也就是有且只有一半的与的预测值相等,所以。
需要注意的是,在这里我们假设真实的目标函数服从均匀分布,但是实际情形并非如此,通常我们只认为能高度拟合已有样本数据的函数才是真实目标函数。例如,现在已有的样本数据为,那么此时才是我们认为的真实目标函数。由于没有收集到或者压根不存在这类样本,因此、、都不算是真实目标函数。套用到上述“房价预测”的例子中,我们认为只有能正确拟合测试集的函数才是真实目标函数,也就是我们希望学得的模型。