我一直在寻找一种矢量化分类变量的方法,然后遇到了category_encoders。它支持多种分类方式。
我尝试了TargetEncoder和BinaryEncoder,但是文档对其功能没有太多解释?
如果有人能解释一下目标编码器和二进制编码器如何工作以及它们与一种热编码有何不同,我真的很感激。
答案 0 :(得分:1)
目标编码将类别变量映射到目标变量的均值。当它使用目标时,必须采取步骤以避免过度拟合(通常通过平滑进行)。
二进制编码将每个整数转换为二进制数字,每个二进制数字都有其一列。从本质上讲,它是特征哈希的一种形式。
这两项都有助于降低分类变量的基数,从而有助于提高某些模型的性能,尤其是基于树的模型。