随机森林的CRAN实现提供了两种可变的重要性度量:基尼重要性以及定义为
的广泛使用的置换重要性对于分类,是指案例出现的次数增加的百分比 OOB,并且在排列变量时分类错误。为了回归 它是当变量变大时OOB残差平方的平均增加 排列
默认情况下, h2o.varimp()仅计算前者。在h2o中,真的没有任何选择可以从随机森林模型中获得替代措施吗?
谢谢! ML
答案 0 :(得分:1)
H2O无法计算置换的重要性。有关如何计算变量重要性的说明,请参见documentation。
为方便起见,我还将其粘贴在下面:
如何为DRF计算变量重要性?
变量的重要性是通过计算每个变量的相对影响来确定的:在树的构建过程中,是否在拆分过程中选择了该变量,结果平方误差(所有树)得到了改善。
先前已针对此问题提出过功能请求,您可以按照here进行操作(尽管请注意,该请求当前处于打开状态)。