在我的数据集中,我有2个不仅相互关联的特征,而且仅在彼此存在时才有意义。例如,一个是尝试执行任务的次数,另一个是成功的次数。
如前所述,似乎是我自己单独采取了2种方法之一并没有提供任何信息。我应该制定一种方案,如果我在RF的树中选择其中一个,则自动包括另一个?
如果是这样,是否可以使用scikit-learn的RF类来做到这一点?
谢谢!
答案 0 :(得分:1)
为成功率引入新功能successes / attempts
。现在,这个可能重要的概念对于分类器/回归器而言更加可用。
随机森林算法对冗余特征具有鲁棒性,因此您应尝试保留原始特征,这可能会添加预测信息。查看经过训练的森林的特征重要性得分,以了解选择了哪些特征。