我想帮助您与Keras建立模型。我有一个数据集,其中包含年龄或工资等区间数据。然后它还包含例如性别(男/女)或部门(销售/人力资源/财务/服务)。
我认为例如“性”我可能会去0/1。但对于1/2/3/4部门,我假设我最好使用单热编码?
如果是这样,我不清楚数据帧的外观。我们来看三个领域:
EmpNo Sex Dept
1 0 [0,0,1,0]
2 1 [0,0,0,1]
3 0 [1,0,0,0]
4 0 [0,0,1,0]
或者它需要看起来像这样:
EmpNo Sex Dept_1 Dept_2 Dept_3 Dept_4
1 0 0 0 1 0
2 1 0 0 0 1
3 0 1 0 0 0
4 0 0 0 1 0
正如您所看到的,我不清楚在Keras中可以处理什么以及如何处理它。当然第二个可以处理,但我会发现第一个设置更好控制。 还有其他意见吗?我在正确的道路上吗?
答案 0 :(得分:2)
数据框看起来像第二种类型:
EmpNo Sex Dept_1 Dept_2 Dept_3 Dept_4
1 0 0 0 1 0
2 1 0 0 0 1
3 0 1 0 0 0
4 0 0 0 1 0
您正在将单列多分类数据更改为多列单分类数据 参考:https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/