在使用随机森林时,在scikit-learn中表示因子变量的方法是什么?

时间:2013-05-10 10:42:33

标签: scikit-learn text-mining random-forest

我正在使用随机森林解决分类问题。为此,我决定使用Python库scikit-learn。但我是Random Forest算法和这个工具的新手。我的数据包含许多因子变量。我用谷歌搜索了一下,发现像我们在线性回归中那样给因子变量赋值数是不对的,因为它会将它视为连续变量并给出错误的结果。但我找不到任何关于如何处理scikit-learn中的因子变量的内容。请告诉我使用的选项或指向我可以获得它的文档。

2 个答案:

答案 0 :(得分:11)

如果您正在使用pandas数据框,则可以轻松使用get_dummies函数来完成此操作。这是一个例子:

import pandas as pd

my_data = [['a','b'],['b','a'],['c','b'],['d','a'],['a','c']]
df = pd.DataFrame(my_data, columns = ['var1','var2'])
dummy_ranks = pd.get_dummies(df['var1'], prefix = 'var1_')
print dummy_ranks

   var1__a  var1__b  var1__c  var1__d
0        1        0        0        0
1        0        1        0        0
2        0        0        1        0
3        0        0        0        1
4        1        0        0        0

[5 rows x 4 columns]

答案 1 :(得分:2)

您应该使用sklearn' OneHotEncoder。它的作用是为分类整数特征中的每个不同值创建一个新变量。

例如,如果变量var的值为[10, 25, 30],则会创建三个新变量(即包含3列的矩阵),基本上包含变量var_10,{{1} }和var_25分别带有值var_30[1, 0, 0][0, 1, 0]