上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4 可解释性评估
对于机器学习中的可解释性,至今没有达成共识,如何衡量也不清楚。但有一些初步的研究,并试图制定一些评估方法。
Doshi Velez 和Kim[4] 为评估可解释性提出了三个主要层次。
·应用级评估(Application Level Evaluation)。将解释放入产品,由最终用户进行测试。想象一下,带有机器学习组件的一个骨折检测软件,可以定位和标记X 光片中的骨折位置。在应用层面,放射科医生将直接测试骨折检测软件来评估模型,这需要一个良好的实验装置并对如何评估质量有正确的理解。可以将专家的解释作为一个很好的基准。
·人员级评估(Human Level Evaluation)。人员级评估是简化的应用级评估。不同的是,这些实验不是由领域专家进行的,而是由非专业人员进行的。这使得实验更廉价,并且容易找到更多的测试人员。
·功能级评估(Function Level Evaluation)。功能级评估不需要人工。当所使用的模型已经由其他人在人员级评估中进行了评估时,这是最有效的。例如,已经知道最终用户很了解决策树。在这种情况下,树的深度可以用来表示解释质量的好坏。较短的树将获得更高的可解释性得分。增加这种约束条件是有意义的:与较深的树相比,树的预测性能保持良好且不会降低太多。
下面将着重对功能级评估上的单个预测的解释进行评估。在评估中需要考虑解释的相关性质是什么。