2.4 可解释性评估_可解释机器学习：黑盒模型可解释性理解指南-QQ阅读男生中文轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.4　可解释性评估

对于机器学习中的可解释性，至今没有达成共识，如何衡量也不清楚。但有一些初步的研究，并试图制定一些评估方法。

Doshi Velez 和Kim［4］为评估可解释性提出了三个主要层次。

·应用级评估（Application Level Evaluation）。将解释放入产品，由最终用户进行测试。想象一下，带有机器学习组件的一个骨折检测软件，可以定位和标记X 光片中的骨折位置。在应用层面，放射科医生将直接测试骨折检测软件来评估模型，这需要一个良好的实验装置并对如何评估质量有正确的理解。可以将专家的解释作为一个很好的基准。

·人员级评估（Human Level Evaluation）。人员级评估是简化的应用级评估。不同的是，这些实验不是由领域专家进行的，而是由非专业人员进行的。这使得实验更廉价，并且容易找到更多的测试人员。

·功能级评估（Function Level Evaluation）。功能级评估不需要人工。当所使用的模型已经由其他人在人员级评估中进行了评估时，这是最有效的。例如，已经知道最终用户很了解决策树。在这种情况下，树的深度可以用来表示解释质量的好坏。较短的树将获得更高的可解释性得分。增加这种约束条件是有意义的：与较深的树相比，树的预测性能保持良好且不会降低太多。

下面将着重对功能级评估上的单个预测的解释进行评估。在评估中需要考虑解释的相关性质是什么。

本周热推：

数控铣削（加工中心）编程与加工大学C/C++语言程序设计基础 UG NX 8.0中文版从入门到精通 21天学通C#30天学通Java Web项目案例开发