我想使用Random Forest进行基于Gini索引的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的示例
Var1 Var2
198 zcROj17IEC
336 DHeTmBftjz
252.3 crIgUHSK8h
252 ZSNrjIX0Db
我知道树可以处理离散数据(分类),但是Sklearn中的RandomForest是否要求连续数值数据首先被离散化,或者它可以处理它?对于分类字符串变量,我使用以下内容将字符串编码为带有零和1的数字列
pandas.get_dummies(X['Var2'])
并且它有效,但对于数字我尝试以下来离散化
pandas.qcut(X['Var1'], 2 , retbins=True)
但我一直收到非独特垃圾箱的错误!
我需要离散吗?我该怎么办?
答案 0 :(得分:0)
随机林应该支持连续变量没问题。请参阅示例this sample。
答案 1 :(得分:0)
当你从你的绝对值中愚弄时,树木和森林会变得更糟。
您只需要标记您的分类功能 - 这就是全部!