随机森林特征重要性何时会失效?

时间:2019-11-13 06:51:07

标签: machine-learning random-forest feature-selection

我对随机森林特征重要性的假设感到好奇。

在此paper中,作者说

  

“我们表明,随机森林变量重要性度量是在许多应用中进行变量选择的明智方法,但在潜在预测变量的测量规模或类别数量不同的情况下,这种方法并不可靠。”

我不明白“预测变量在其测量范围中的变化”是什么意思。这是否意味着需要在拟合随机森林模型之前对数据进行标准化?

  1. 基于RF的功能重要性是否需要对功能进行标准化?

  2. 是否需要拟合良好的RF模型(例如,修剪),好像我正在使用RF进行实际预测一样?

  3. 如果我同时拥有分类变量和连续变量,该怎么办?排列方法是唯一的选择吗?

0 个答案:

没有答案