模型中所有离散级别的H2O变量重要性

时间:2018-08-15 17:05:51

标签: python h2o

我想从变量重要性的角度为给定模型提取各个分类级别。下面提供的数据集中有几种分类预测变量,但是当我去计算特征重要性时,只显示“整列”的重要性,而不是将重要性分解成类似C1_level0: importance和{{1 }}。如果手动对这些离散级别进行一次热编码,我将如何看到这些列的重要性?

C1_level1: importance

2 个答案:

答案 0 :(得分:1)

使用model.std_coef_plot()时,H2O的GLM可以实现这一点,但是model.varimp(True)的预期行为是给您每个功能的重要性,而不是各个级别的重要性。

如果您想了解个人水平和结果之间的关系,我建议您使用H2O的偏倚图(文档herehere

答案 1 :(得分:0)

您想要的东西称为partial dependency plots,您可以通过pdp_data = model.partial_plot(data=fi_data, cols=variable_list, plot=False, nbins=30,plot_stddev = False )命令获得它

在此数据表中,您拥有所需的信息,因此在进行一些处理后,可以为模型中的每个变量打印如下图。

enter image description here

红点代表Y的均值,每个级别的稀有事物的点prediction