Python - 用于分类的最小方差的bin大小

时间:2017-06-30 12:32:21

标签: python pandas feature-engineering

我想改变我的功能'年龄'从连续变量到二元分类的年龄范围的分类变量,如下所示:

BUFCOUNT

但是我希望以最佳方式对其进行拆分,以便最有效地对数据进行分类。即年龄范围内的阶级差异最小化而不过度拟合。

是否有一个方法有一个方法,可以在分割这样的数据时最小化方差,还是我必须自己写一个?

1 个答案:

答案 0 :(得分:1)

也许您可以使用sklearn.cluster来执行此操作。