我正在使用R的'离散化'包。在找到切割点时,我得到以下结果。
命令:
discretization::cutPoints(data3$Dist_to_Stream, data3$Malaria_w3)
其中Dist_to_Stream
是数值的变量,Malaria_w3
是类(分类)
[1] 5.118175 95.484400 119.386500 300.842000 311.320500
[6] 338.104000 387.722500 460.783000 472.821500 551.741500
[11] 910.745500 214.143000 234.124500 260.812000 358.513000
[16] 361.015500 449.447500 538.411500 589.118500 626.888000
[21] 657.261000 648.304500 698.310500 953.814500 1091.265000
[26] 1181.350000 2023.885000 2040.360000 2069.390000 2201.395000
[31] 2120.185000 2142.255000 2456.820000 2819.860000
输出截止点太多(34个分档)。在监督(基于熵)分组时,有没有办法控制切割点的数量?
先谢谢..
答案 0 :(得分:0)
discretization
R
包的功能不提供任何控制箱数(Discretization Documentation)的参数。这可以通过SPSS的Optimal Binning
选项轻松完成。可以在执行分箱之前设置最大箱数(仍然是其监督分箱)。
了解更多信息 Optimal Binning