R - 问题:找到最佳数量的非均匀分档以显示一系列数据点。
我有一堆数据点(让我们假设不同手机的价格不同)。我需要将这些手机分类为某些类别(根据价格)。箱子大小(在这个例子中指的是价格范围)不需要是统一的(低价格类别中可能有很多移动设备,长尾类别中可能很少)。
是否有任何有效的算法可以找到所需的最佳箱数和数据点数(在这种情况下是移动电话),这些数据点将分为每个类别。
答案 0 :(得分:0)
这不是一个标准的公式,但想要发布,因为它似乎与我测试的数据集一起使用。
查找所有手机的平均价格。
Ex:5手机,价格分别为10,20,40,80,200
平均值为350/5 = 70
从平均价格中减去最低价格:70 - 10 = 60 - >将其命名为N1
从最高价格中减去平均价格:200 - 70 = 130 - >将其命名为N2
找出比率N2 / N1:130/60:大致为2
这表明在更高的范围内每1个垃圾箱在较低的价格范围内拥有2个垃圾箱会更好。
所以,例如,在70以下需要2个箱子。范围0 - 35(2个手机),36 - 70个(1个手机)
高于70的1个箱子:范围71 - 200(2个手机)
如您所见,垃圾箱和垃圾箱尺寸的数量相当合理。