标签: python pandas feature-engineering
我想改变我的功能'年龄'从连续变量到二元分类的年龄范围的分类变量,如下所示:
BUFCOUNT
但是我希望以最佳方式对其进行拆分,以便最有效地对数据进行分类。即年龄范围内的阶级差异最小化而不过度拟合。
是否有一个方法有一个方法,可以在分割这样的数据时最小化方差,还是我必须自己写一个?
答案 0 :(得分:1)
也许您可以使用sklearn.cluster来执行此操作。
sklearn.cluster