我正在处理二进制分类问题。我正在开发基于熊猫和sklearn库的框架。
我正在使用一些分类特征作为预测变量,其中一些具有多个层次。我想提出一个策略来做到这一点。
我已经知道我们可以按类别对分类级别进行分类。但是我徘徊在按正类别(pos_frac)的分数进行分箱,即每个类别都将具有pos_frac,并且其想法是将具有相似pos_frac的类别组合在一起。然后,将这种“重新组合”的分类预测变量作为分类器的输入。
我知道这种方式已经使用了一些有关我要分类的类的信息(泄漏)。
有人可以暗示这有多重要吗?
非常感谢。
亚历杭德罗