应用错误收集

您如何处理仅具有分类变量且全部具有高基数的数据集？

如果目标变量是另一个高基数分类变量，那么编码高基数分类变量的正确方法是什么？

LabelEncoding的幼稚方法既不对特征（独立变量）也不对目标（因变量）进行编码，因为它假定了固有的排序方式，而这种情况在大多数情况下并非如此。

OneHotEncoding也不能使用，因为我们具有高基数功能（对于35000条记录的数据集，某些变量的基数高达1100）。

所有对比度编码方案和目标编码都在这里惨败，因为它们都计算目标变量的“均值”，而计算多类别分类变量的均值没有意义。

Scikit Learn承认这一点。请参阅此问题-

我在这里还缺少其他完全不同的方法吗？