如何减少分类值的数量?

时间:2019-06-13 14:49:13

标签: pandas scikit-learn

我正在处理二进制分类问题。我正在开发基于熊猫和sklearn库的框架。

我正在使用一些分类特征作为预测变量,其中一些具有多个层次。我想提出一个策略来做到这一点。

我已经知道我们可以按类别对分类级别进行分类。但是我徘徊在按正类别(pos_frac)的分数进行分箱,即每个类别都将具有pos_frac,并且其想法是将具有相似pos_frac的类别组合在一起。然后,将这种“重新组合”的分类预测变量作为分类器的输入。

我知道这种方式已经使用了一些有关我要分类的类的信息(泄漏)。

有人可以暗示这有多重要吗?

非常感谢。

亚历杭德罗

0 个答案:

没有答案