Keras建模:我是否需要单热编码,如果需要,如何?

时间:2018-01-26 06:05:59

标签: python pandas keras

我想帮助您与Keras建立模型。我有一个数据集,其中包含年龄或工资等区间数据。然后它还包含例如性别(男/女)或部门(销售/人力资源/财务/服务)。

我认为例如“性”我可能会去0/1。但对于1/2/3/4部门,我假设我最好使用单热编码?

如果是这样,我不清楚数据帧的外观。我们来看三个领域:

EmpNo    Sex    Dept
1        0      [0,0,1,0]
2        1      [0,0,0,1]
3        0      [1,0,0,0]
4        0      [0,0,1,0]

或者它需要看起来像这样:

EmpNo    Sex    Dept_1    Dept_2    Dept_3    Dept_4
1        0      0         0         1         0
2        1      0         0         0         1
3        0      1         0         0         0
4        0      0         0         1         0

正如您所看到的,我不清楚在Keras中可以处理什么以及如何处理它。当然第二个可以处理,但我会发现第一个设置更好控制。 还有其他意见吗?我在正确的道路上吗?

1 个答案:

答案 0 :(得分:2)

数据框看起来像第二种类型:

EmpNo    Sex    Dept_1    Dept_2    Dept_3    Dept_4
1        0      0         0         1         0
2        1      0         0         0         1
3        0      1         0         0         0
4        0      0         0         1         0

您正在将单列多分类数据更改为多列单分类数据 参考:https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/