2.7 其他问题_人工智能程序员面试笔试宝典-QQ阅读男频轻小说网

上QQ阅读APP看书，第一时间看更新

2.7 其他问题

2.7.1 常用的损失函数有哪些

（1）0-1 loss

记录分类错误的次数。

（2）Hinge Loss

最常用在SVM中的最大化间隔分类中。对可能的输出t=±1和分类器分数y，预测值y的hinge loss定义如下：

L(y)=max(0.1-t∗y)

（3）Log Loss对数损失

对于对数函数，由于其具有单调性，在求最优化问题时，结果与原始目标一致，在含有乘积的目标函数中（如极大似然函数），通过取对数可以转化为求和的形式，从而大大简化目标函数的求解过程。

（4）Squared Loss平方损失

即真实值与预测值之差的平方和。通常用于线性模型中，如线性回归模型。

（5）Exponential Loss指数损失

指数函数的特点是越接近正确结果误差越小，Adaboost算法即使用的指数损失目标函数。但是指数损失存在的一个问题是误分类样本的权重会指数上升，如果数据样本是异常点，会极大地干扰后面基本分类器学习效果。

2.7.2 如何判断函数凸或非凸

首先定义凸集，如果x,y属于某个集合M，并且所有的θx+(1-θ)y也属于M，那么M为一个凸集。如果函数f的定义域是凸集，并且满足

f(θx+(1-θ)y)≤θf(x)+(1-θ)f(y)

则该函数为凸函数。上述条件还能推出更普适的结果，

如果函数存在二阶导数且为正，或者多元函数的Hessian矩阵半正定则均为凸函数

2.7.3 什么是数据不平衡问题，应该如何解决

数据不平衡，又称样本比例失衡。对于二分类问题来说，在一般情况下，正样本与负样本的比例应该是差不多的，但是在某些特殊项目中下，正负样本的比例却可能相差很大，如淘宝电商领域中的恶意差评检测，银行金融风控领域中的欺诈用户判断或医疗领域的肿瘤诊断等。

常见的解决数据不平衡问题的方法如下。

1）数据采样。

数据采样分为上采样和下采样。上采样是将少量数据类别的数据重复复制使得各类别的比例维持在正常水平，不过这种方法容易导致过拟合，所以需要在生成新数据的时候加入较小的随机扰动。下采样则相反，从多数数据类中筛选出一部分从而使各类别数据比例维持在正常水平，但是容易丢失比较重要的信息，所以需要多次随机下采样。

2）数据合成是利用已有样本的特征相似性生成更多新的样本。

3）加权是通过对不同类别分类错误施加不同权重的代价，使得机器学习时更侧重样本较少且容易出错的样本。

4）一分类。

当正负样本比例严重失衡时，采样和数据合成会导致原始数据的真实分布产生变化太大，从而导致模型训练结果并不能真正反映实际的情况，训练时会产生很大的偏差。那么此时可以用一分类的方法解决。例如One-class SVM，该算法利用高斯核函数将样本空间映射到核空间，在核空间中找到一个包含所有数据的高维球体。如果测试数据位于这个高维球体之中，则归为多数类，否则就归为少数类。

2.7.4 熵、联合熵、条件熵、KL散度、互信息的定义

熵在物理中是用于衡量一个热力学系统的无序程度，由德国物理学家鲁道夫·克劳修斯提出的熵的表达式为：

其中Q是吸收或者释放的热量，T是温度。

计算机领域将其定义为离散随机事件的出现概率。一个系统越是有序，信息熵就越低；反之，系统越是混乱，信息熵就越高。所以信息熵用来衡量系统有序化程度。如果一个随机变量X的可能取值为X={x₁,x₂,…,x_k}，概率分布为P(X=x_i)=p_i(i=1,2,…,n)，则随机变量X的熵定义为：