如何在R中控制CutPoints(在执行有监督的分箱时)

时间:2015-10-15 09:19:01

标签: r binning discretization

我正在使用R的'离散化'包。在找到切割点时,我得到以下结果。

命令:

discretization::cutPoints(data3$Dist_to_Stream, data3$Malaria_w3)

其中Dist_to_Stream是数值的变量,Malaria_w3是类(分类)

 [1]    5.118175   95.484400  119.386500  300.842000  311.320500
 [6]  338.104000  387.722500  460.783000  472.821500  551.741500
 [11]  910.745500  214.143000  234.124500  260.812000  358.513000
 [16]  361.015500  449.447500  538.411500  589.118500  626.888000
 [21]  657.261000  648.304500  698.310500  953.814500 1091.265000
 [26] 1181.350000 2023.885000 2040.360000 2069.390000 2201.395000
 [31] 2120.185000 2142.255000 2456.820000 2819.860000

输出截止点太多(34个分档)。在监督(基于熵)分组时,有没有办法控制切割点的数量?

先谢谢..

1 个答案:

答案 0 :(得分:0)

discretization R包的功能不提供任何控制箱数(Discretization Documentation)的参数。这可以通过SPSS的Optimal Binning选项轻松完成。可以在执行分箱之前设置最大箱数(仍然是其监督分箱)。

了解更多信息 Optimal Binning