在Sklearn中为RandomForest分离连续变量

时间:2017-12-02 17:23:52

标签: python random-forest sklearn-pandas

我想使用Random Forest进行基于Gini索引的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的示例

Var1 Var2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树可以处理离散数据(分类),但是Sklearn中的RandomForest是否要求连续数值数据首先被离散化,或者它可以处理它?对于分类字符串变量,我使用以下内容将字符串编码为带有零和1的数字列

pandas.get_dummies(X['Var2'])

并且它有效,但对于数字我尝试以下来离散化

pandas.qcut(X['Var1'], 2 , retbins=True) 

但我一直收到非独特垃圾箱的错误!

我需要离散吗?我该怎么办?

2 个答案:

答案 0 :(得分:0)

随机林应该支持连续变量没问题。请参阅示例this sample

答案 1 :(得分:0)

当你从你的绝对值中愚弄时,树木和森林会变得更糟。

您只需要标记您的分类功能 - 这就是全部!