假设我有以下格式的数据集:
col1 col2 col3 col4 col5 (to be predicted)
12 13 4 primary 12
1 15 2 secondary 13
5 7 8 primary 18
14 12 44 college 6
需要使用col1,col2,col3和col4 预测某些测试数据的col5
在训练期间,col1,col2,col3可以在分组器的阵列中进行,但是如何喂养col4。 我知道这是绝对的,需要转换为数字类型,但即使在分配了一些数字之后,它仍将保持为名义类型。
因此,如果primary = 1,secondary = 2且college = 3,则数字1,2和3不能按其大小进行比较,因为它们仍然像标签一样,没有数字意义。
那么我应该在这一步之后继续......他们应该正常化吗?还是应该做任何进一步的工作?
答案 0 :(得分:1)
在这种情况下,您应该使用One Hot Encoding。每个可能的分类值都会创建新的二进制特征。