将连续变量拖入不同的边界桶

时间:2017-06-03 18:51:34

标签: sas pyspark

如何将连续变量存储到固定数量的存储桶中,使边界不重叠?

Ex:假设我有500个数字,302个1s,120个2s以及一系列其他值,范围从3到40个。如何在不查看分布的情况下将这些数据分成5个分区?

百分位桶意味着1,2和1中存在1。 3个桶,而它们实际上只是一个箱子。

2 个答案:

答案 0 :(得分:0)

我建议使用。其中一个聚类分析程序(例如proc fastclus),请求5个1-d聚类。

答案 1 :(得分:0)

使用PROC RANK和GROUPS指定组数。您也可以指定一些方法,但它们都是基于百分位数的。