我有大约10,000个样本和9,000个功能。我正在尝试使用RandomForest(RF或GRF)进行特征(变量)选择/缩减。
当我使用700个功能时这个概念很有用,但对于9,000个,当我尝试运行randomForest或RRF时,即使有1个树(甚至是mtry = 1),我等了好几个小时也没有任何反应。 (仅供参考,我使用sampsize = 800)
我希望至少能够运行1棵单树,然后使用多台计算机并进行组合。
有任何想法可以提供帮助吗?
罗尼
答案 0 :(得分:1)
我一直在处理同样的问题,我解决了如下:
这种方法可能会导致一些重要功能的丢失,但它通常会选择信息量最大的功能。顺便说一句,您可以根据需要更改所选的特征尺寸(在给定示例中为300)。
据我所知,没有其他方法可以找到最佳特征子集,而不会丢失重要特征。