我对随机森林特征重要性的假设感到好奇。
在此paper中,作者说
“我们表明,随机森林变量重要性度量是在许多应用中进行变量选择的明智方法,但在潜在预测变量的测量规模或类别数量不同的情况下,这种方法并不可靠。”
我不明白“预测变量在其测量范围中的变化”是什么意思。这是否意味着需要在拟合随机森林模型之前对数据进行标准化?
基于RF的功能重要性是否需要对功能进行标准化?
是否需要拟合良好的RF模型(例如,修剪),好像我正在使用RF进行实际预测一样?
如果我同时拥有分类变量和连续变量,该怎么办?排列方法是唯一的选择吗?