返回
Featured image of post 可解释的机器学习-模型无关方法

可解释的机器学习-模型无关方法

理想的模型无关方法

模型不可知的解释系统的理想⽅⾯是 (Ribeiro,Singh 和 Guestrin,2016):

  • 模型的灵活性:解释⽅法可以与任何机器学习模型⼀起使⽤,例如随机森林和深度神经⽹络
  • 解释的灵活性:你不限于某种形式的解释
    • 在某些情况下,线性公式可能会有⽤
    • 在其他情况下,特征重要性的图形可能会有⽤。
  • 表示方式的灵活性:解释系统应该能够使⽤与所解释模型不同的特征表⽰⽅式
    • 对于使⽤抽象词嵌⼊向量的⽂本分类器,可能更希望使⽤单个词的存在进⾏解释

部分依赖图 PDP

部分依赖图 (Partial Dependence Plot,简称 PDP 或 PD 图) 显⽰了⼀个或两个特征对机器学 习模型的预测结果的边际效应 (JH Friedman,2001[1])。部分依赖图可以显⽰⽬标和特征之间的关 系是线性的、单调的或更复杂的。

优点

  • 部分依赖图的计算很直观:如果我们强制所有数据点都假定该特征值,则特定特征值处的部分依赖函数表⽰平均预测。⾮专业⼈⼠通常会很快理解 PDP 的概念。
  • 如果你为其计算 PDP 的特征与其他特征不相关,则 PDP 可以完美地表⽰该特征如何平均影响预 测。在不相关的情况下,解释很清楚:部分依赖图显⽰了第 j 个特征更改时数据集中的平均预测如何变化。当特征相关时会更加复杂,另请参见缺点。
  • 部分依赖图很容易实现。
  • 部分依赖图的计算具有因果关系。我们⼲预⼀项特征并测量预测的变化。在此过程中,我们分析了 特征与预测之间的因果关系。这种关系对于模型是因果关系的——因为我们明确地将结果建模为特征的函数——但不⼀定对现实世界有效!

缺点

  • 部分依赖函数中实际的最大特征数量为 2。这不是 PDP 的错,⽽是⼆维表⽰ (纸或屏幕) 的错,也 是我们⽆法想象 3 个以上维度的错。
  • ⼀些 PD 图未显⽰特征分布。忽略分布可能会产⽣误导,因为你可能会过度解释⼏乎没有数据的区域。通过显⽰ RUG (x 轴上的数据点指⽰器) 或直⽅图可以轻松解决此问题。
  • 独立性的假设是 PD 图最⼤的问题。假定针对其计算了部分依赖性的特征与其他特征不相关。 例如, 假设你要根据⼀个⼈的体重和⾝⾼来预测⼀个⼈⾛多快。对于其中⼀个特征 (例如⾝⾼) 的部分依 赖性,我们假设其他特征 (体重) 与⾝⾼不相关,这显然是错误的假设。对于某个⾝⾼ (例如 200 厘 ⽶) 的 PDP 的计算,我们对体重的边际分布求平均值,其中可能包括 50 公⽄以下的体重,这对于 2 ⽶⾼的⼈来说是不现实的。换句话说:当特征关联时,我们会在特征分布区域中创建实际概率⾮ 常低的新数据点 (例如,某⼈⾝⾼ 2 ⽶但体重不⾜ 50 公⽄的概率不⼤)。解决这个问题的⼀种⽅法是适⽤于条件分布⽽⾮边际分布的累积局部效应图或简称 ALE 图。
  • 异质效应可能被隐藏,因为 PD 曲线仅显⽰平均边际效应。假设对于⼀个特征,你的数据点中的⼀ 半与预测具有正相关关系——特征值越⼤,预测值越⼤——另⼀半有负相关性——特征值越⼩,预 测值越⼤。PD 曲线可能是⼀条⽔平线,因为数据集的两半的效果可能会相互抵消。然后,你可以 得出结论,该特征对预测没有影响。通过绘制个体条件期望曲线⽽不是聚合线,我们可以发现异构 效应。

© 2023 - 2025 壹壹贰捌· 0Days
共书写了265.7k字·共 93篇文章 京ICP备2023035941号-1