将大量分类变量编码为输入数据

时间:2016-02-15 10:32:11

标签: machine-learning neural-network

当您处理数百个类别时,一个热门编码听起来并不是一个好主意,例如:一个数据集,其中一列是"名字"。编码此类数据的最佳方法是什么?

2 个答案:

答案 0 :(得分:2)

我推荐散列技巧:

https://en.wikipedia.org/wiki/Feature_hashing#Feature_vectorization_using_the_hashing_trick

计算成本低,易于使用,可以指定维度,并且通常可以作为分类的良好基础。

对于您的特定应用,我会对功能值对进行哈希处理,例如(' FirstName',' John'),然后为哈希值增加存储区。

答案 1 :(得分:1)

如果您有大量类别,则分类算法效果不佳。相反,有一种更好的方法可以做到这一点。您对数据应用回归算法,然后在这些输出上训练偏移量。它会给你更好的结果。

可以找到示例代码here