在多类目标变量的情况下如何使用对比编码方案?如果对比编码失败,如何编码分类特征?

时间:2019-05-30 06:54:53

标签: scikit-learn categorical-data multilabel-classification multiclass-classification

您如何处理仅具有分类变量且全部具有高基数的数据集?

如果目标变量是另一个高基数分类变量,那么编码高基数分类变量的正确方法是什么?

LabelEncoding的幼稚方法既不对特征(独立变量)也不对目标(因变量)进行编码,因为它假定了固有的排序方式,而这种情况在大多数情况下并非如此。

OneHotEncoding也不能使用,因为我们具有高基数功能(对于35000条记录的数据集,某些变量的基数高达1100)。

所有对比度编码方案和目标编码都在这里惨败,因为它们都计算目标变量的“均值”,而计算多类别分类变量的均值没有意义。

https://github.com/scikit-learn-contrib/categorical-encoding/blob/master/category_encoders/target_encoder.py#L166

Scikit Learn承认这一点。请参阅此问题-

https://github.com/scikit-learn-contrib/categorical-encoding/issues/182

我在这里还缺少其他完全不同的方法吗?

0 个答案:

没有答案