您如何处理仅具有分类变量且全部具有高基数的数据集?
如果目标变量是另一个高基数分类变量,那么编码高基数分类变量的正确方法是什么?
LabelEncoding的幼稚方法既不对特征(独立变量)也不对目标(因变量)进行编码,因为它假定了固有的排序方式,而这种情况在大多数情况下并非如此。
OneHotEncoding也不能使用,因为我们具有高基数功能(对于35000条记录的数据集,某些变量的基数高达1100)。
所有对比度编码方案和目标编码都在这里惨败,因为它们都计算目标变量的“均值”,而计算多类别分类变量的均值没有意义。
Scikit Learn承认这一点。请参阅此问题-
https://github.com/scikit-learn-contrib/categorical-encoding/issues/182
我在这里还缺少其他完全不同的方法吗?