SHAP值:通过子和度量数据源的贡献?

时间:2019-11-17 11:51:54

标签: xgboost shap

我有一个XGBoost模型,使用SHAP值来解释单个预测的特征贡献。我需要对为什么将其归类为0或1的各个样本提供一些指导。

我了解到所有特征的总和应等于边际概率,但是我可以(或者我应该因为定义不明确而不应该这样做)来计算小计吗?

我合并了多个数据源,数据源以功能名称编码,例如:

data_str = "15+i10 15+ i10 15 +i10 15 + i10"
data_str = re.sub("\+(?= )", "", data_str)

我想总结来自同一来源的特征,并得出一个结论,例如来自source_A的特征趋向于整体(正和)趋向于类别1,而source_B根本没有作用(即,总和)设为零),并且source_Z趋向于类别0(负和)。

到目前为止,我所读的书暗示我可以这样做,但是我想听听对此事的第二意见?我可以使用这样的SHAP功能吗?

感谢您的帮助/想法 最好,

0 个答案:

没有答案