Question

我在我的项目中使用 RandomForestRegressor （来自python中的伟大Scikt-Learn库），它给了我很好的结果，但我想我可以做得更好。当我给'fit（..）'函数赋予特征时，将分类特征作为二元特征更好吗？

例如：而不是：

===========
continent |
===========
     1    |
===========
     2    |
===========
     3    |
===========
     2    |
===========

做类似的事情：

===========================
is_europe | is_asia   | ...
===========================
    1     |     0     |
===========================
    0     |     1     |
===========================

因为它作为树工作可能第二种选择更好，或者第一种选择是否会起作用？非常感谢！

Answer 1

强烈建议对分类变量进行二值化，并且期望在没有二进制化器变换的情况下优于模型。如果scikit-learn将continent = [1, 2, 3, 2]视为数值（连续变量[定量]而非分类[定性]），则会对该要素施加人为顺序约束。例如，假设continent=1表示is_europe，continent=2表示is_asia，continent=3表示is_america，则表示is_asia在检查is_europe与您的响应变量is_america的关系时始终处于continent feature和y之间，这不一定是真的，并且有可能降低模型的有效性。相反，使其成为虚拟变量没有这样的问题，scikit-learn将分别处理每个二进制特征。

要在scikit-learn中对分类变量进行二值化，您可以使用LabelBinarizer。

from sklearn.preprocessing import LabelBinarizer


# your data
# ===========================
continent = [1, 2, 3, 2]
continent_dict = {1:'is_europe', 2:'is_asia', 3:'is_america'}
print(continent_dict)

{1: 'is_europe', 2: 'is_asia', 3: 'is_america'}

# processing
# =============================
binarizer = LabelBinarizer()
# fit on the categorical feature
continent_dummy = binarizer.fit_transform(continent)
print(continent_dummy)

[[1 0 0]
 [0 1 0]
 [0 0 1]
 [0 1 0]]

如果您在pandas处理数据，那么它的顶级函数pandas.get_dummies也有帮助。

RandomForestRegressor是否将句柄作为类别？

1 个答案: