2.2 可解释性方法的分类
可以根据各种标准对机器学习可解释性的方法进行分类。
1.自解释还是事后解释
该标准通过限制机器学习模型的复杂性(称为内在的,也可称为本质上的)或在训练后分析模型的方法(称为事后的)来区分是否实现了可解释性。自解释性是指由于结构简单而被认为是可解释的机器学习模型,如短的决策树或稀疏线性模型;事后可解释性是指模型训练后运用解释方法,这是与模型无关的,例如置换特征重要性是一种事后解释方法。事后解释方法也可以应用于自解释模型上。例如,可以计算决策树的置换特征重要性。本书各章节的组织方式是由自解释模型(Intrinsically Interpretable Model)和事后解释方法(Post-hoc Interpretation Method)之间的区别决定的。
2.解释方法的输出
可以根据解释方法的输出大致区分各种解释方法。
·特征概要统计量(Feature Summary Statistic)。许多解释方法为每个特征提供概要统计量。有些方法为每个特征返回一个数字,例如特征重要性;或者更复杂的输出,例如成对特征交互强度,即每个特征对表示为一个数字。
·特征概要可视化(Feature Summary Visualization)。大多数特征概要统计信息也可以可视化。有些特征概要实际上只有在可视化的情况下才有意义,并且表格不能满足要求。特征的部分依赖就是这样一种情况。部分依赖图是显示特征和平均预测结果的曲线。呈现部分依赖关系的最佳方法是按实际绘制曲线,而不是打印坐标。
·模型内部(Model Internal)。对自解释模型的解释就属于这一类,如线性模型中的权重或决策树学习得到的树结构(例如用于分割的特征和截断值)。但对于像线性模型,因为权重同时是模型内部和特征概要统计量,所以此时两者的界限是模糊的。输出模型内部结构的另一种方法是在卷积神经网络中将学习得到的特征检测器可视化。根据定义,输出模型内部的可解释性方法是特定于模型的(参见标准3)。
·数据点(Data Point)。这种方法返回已经存在或新创建的数据点以使模型具有可解释性。一种方法称为反事实解释(Counterfactual Explanation),为了解释对数据实例的预测,该方法通过用一些方式改变某些特征以改变预测结果(例如预测类别的翻转),找到相似的数据点。另一种方法是识别预测类的原型,输出新数据点的解释方法要求可以解释数据点本身。这对图像和文本很有效,但对具有数百个特征的表格数据不太有效。
·自解释模型。解释黑盒模型的一个解决方案是用可解释模型(全局地或局部地)对其进行近似。而这些可解释模型本身可以通过查看模型内部参数或特征概要统计量来解释。
3.特定于模型(Model-specific)的还是与模型无关(Model-agnostic)的
特定于模型的解释方法仅限于特定的模型类,例如线性模型中回归权重的解释就是特定于模型的解释。因为根据定义,自解释模型的解释通常是特定于模型的解释。只能应用于神经网络的解释工具也是特定于模型的。相对应的,与模型无关的工具可以用于任何机器学习模型,并在模型经过训练后应用(即事后的)。这些与模型无关的方法通常通过分析特征输入和输出对来实现。根据定义,这些方法是不能访问模型的内部信息的,例如权重或结构信息。
4.局部(Local)还是全局(Global)
解释方法是解释单个实例预测还是整个模型行为?抑或介于两者之间?在2.3 节中会有关于范围标准的更多介绍。