pandas - 如何减少分类值的数量？

我正在处理二进制分类问题。我正在开发基于熊猫和sklearn库的框架。

我正在使用一些分类特征作为预测变量，其中一些具有多个层次。我想提出一个策略来做到这一点。

我已经知道我们可以按类别对分类级别进行分类。但是我徘徊在按正类别（pos_frac）的分数进行分箱，即每个类别都将具有pos_frac，并且其想法是将具有相似pos_frac的类别组合在一起。然后，将这种“重新组合”的分类预测变量作为分类器的输入。

我知道这种方式已经使用了一些有关我要分类的类的信息（泄漏）。

有人可以暗示这有多重要吗？

非常感谢。

亚历杭德罗