将分类数据输入分类器

时间:2015-10-03 09:02:33

标签: machine-learning dataset classification data-analysis categorical-data

假设我有以下格式的数据集:

col1    col2     col3      col4         col5 (to be predicted)
12      13       4         primary      12 
1       15       2         secondary    13
5       7        8         primary      18
14      12       44        college      6
需要使用col1,col2,col3和col4

预测某些测试数据的col5

在训练期间,col1,col2,col3可以在分组器的阵列中进行,但是如何喂养col4。 我知道这是绝对的,需要转换为数字类型,但即使在分配了一些数字之后,它仍将保持为名义类型。

因此,如果primary = 1,secondary = 2且college = 3,则数字1,2和3不能按其大小进行比较,因为它们仍然像标签一样,没有数字意义。

那么我应该在这一步之后继续......他们应该正常化吗?还是应该做任何进一步的工作?

1 个答案:

答案 0 :(得分:1)

在这种情况下,您应该使用One Hot Encoding。每个可能的分类值都会创建新的二进制特征。

One Hot Encoding for Machine learning