R中的RandomForest具有大量功能

时间:2014-01-16 18:27:51

标签: r random-forest

我有大约10,000个样本和9,000个功能。我正在尝试使用RandomForest(RF或GRF)进行特征(变量)选择/缩减。

当我使用700个功能时这个概念很有用,但对于9,000个,当我尝试运行randomForest或RRF时,即使有1个树(甚至是mtry = 1),我等了好几个小时也没有任何反应。 (仅供参考,我使用sampsize = 800)

我希望至少能够运行1棵单树,然后使用多台计算机并进行组合。

有任何想法可以提供帮助吗?

罗尼

1 个答案:

答案 0 :(得分:1)

我一直在处理同样的问题,我解决了如下:

  1. 将您的9000个功能划分为9组,每组包含1000个10K样本的功能
  2. 为每个子组运行功能选择,并从每个子组中选择300个最具信息性的功能
  3. 合并选定的9 * 300功能并重复步骤1和2
  4. 最后,您将获得300个功能
  5. 这种方法可能会导致一些重要功能的丢失,但它通常会选择信息量最大的功能。顺便说一句,您可以根据需要更改所选的特征尺寸(在给定示例中为300)。

    据我所知,没有其他方法可以找到最佳特征子集,而不会丢失重要特征。