有几列,例如branch_id或state_id或country_id。每行的这些唯一值(例如ID)。
在进行机器学习项目时如何处理此类专栏?
我通常只是将它们转换为名义类别
train.branch_id = train.branch_id.astype('category',ordered =False)
答案 0 :(得分:0)
您需要LabelEncode或OneHotEncode(通常是后者)。
最简单的方法是pandas.get_dummies。
假设您有如下系列:
s = pd.Series(list('abca'))
Output:
0 a
1 b
2 c
3 a
然后:
pd.get_dummies(s)
Output:
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
这然后作为单独的功能进入火车数据集。
但是,如果您正在建立回归模型,请注意this trap。