如何处理数字变量(例如branch_id或state_id)?

时间:2019-04-15 14:48:34

标签: python machine-learning

有几列,例如branch_id或state_id或country_id。每行的这些唯一值(例如ID)。

在进行机器学习项目时如何处理此类专栏?

我通常只是将它们转换为名义类别

train.branch_id = train.branch_id.astype('category',ordered =False)

1 个答案:

答案 0 :(得分:0)

您需要LabelEncodeOneHotEncode(通常是后者)。

最简单的方法是pandas.get_dummies

假设您有如下系列:

s = pd.Series(list('abca'))

Output:
0    a
1    b
2    c
3    a

然后:

pd.get_dummies(s)

Output:
    a   b   c
0   1   0   0
1   0   1   0
2   0   0   1
3   1   0   0

这然后作为单独的功能进入火车数据集。

但是,如果您正在建立回归模型,请注意this trap