我使用随机森林来估计许多预测变量的重要性(%IncMSE)。之后,我使用了所有预测变量的组合,但我再次计算它们的重要性。 即使只使用了两个预测变量,RandomForest也在理论上工作,但是我想知道如果mtry参数设置为1是否有意义。如果我正确,这意味着在每次迭代时随机森林适合只有两个预测变量之一的树。 如果我只需要制作一个只有两个预测变量的模型,随机森林就不是我的第一选择,但我不知道在同一个任务中使用两个不同的统计数据是否合理纸。 你认为我也应该使用随机森林和两个预测因子吗?或者另一种模式更合适? 感谢
答案 0 :(得分:1)
是的,这是随机森林的正常操作。在每个节点处,它可以仅考虑要分割的所有可能特征的子集。如果你有2个功能,是的,它会随机使用其中一个或每个适合。
如果您在同一训练集上拟合每棵树,这实际上非常重要。没有它,每棵树都是相同的。也就是说,通过考虑不同的特征集或不同的数据子集,您可以得到不同的树。
RDF是否合适取决于数据的性质。你有分类功能吗?是的,与其他算法相比,它是一个不错的选择。决策边界可能不是轴对齐的吗?那不是一个好的选择。虽然RDF的变体可以计算不对齐的决策边界,但R' s
。试一试,看看你得到了什么样的评估指标?
答案 1 :(得分:0)
我认为你担心是对的。
这些森林算法的工作方式是通过计算选择变量进行拆分的次数以及树中的哪一点。
如果变量选择完全是随机的,那么这个数据将完全没有意义。
如果使用加扰方法计算统计数据 - 随机化特征值并计算性能差异 - 这可能不是一个问题,但很难说。
您可能希望使用其他方法来衡量重要性,或者至少进行比较。