当您处理数百个类别时,一个热门编码听起来并不是一个好主意,例如:一个数据集,其中一列是"名字"。编码此类数据的最佳方法是什么?
答案 0 :(得分:2)
我推荐散列技巧:
https://en.wikipedia.org/wiki/Feature_hashing#Feature_vectorization_using_the_hashing_trick
计算成本低,易于使用,可以指定维度,并且通常可以作为分类的良好基础。
对于您的特定应用,我会对功能值对进行哈希处理,例如(' FirstName',' John'),然后为哈希值增加存储区。
答案 1 :(得分:1)
如果您有大量类别,则分类算法效果不佳。相反,有一种更好的方法可以做到这一点。您对数据应用回归算法,然后在这些输出上训练偏移量。它会给你更好的结果。
可以找到示例代码here。