找到最佳数量的非均匀分档

时间:2013-05-20 11:20:27

标签: algorithm r size bin

R - 问题:找到最佳数量的非均匀分档以显示一系列数据点。

我有一堆数据点(让我们假设不同手机的价格不同)。我需要将这些手机分类为某些类别(根据价格)。箱子大小(在这个例子中指的是价格范围)不需要是统一的(低价格类别中可能有很多移动设备,长尾类别中可能很少)。

是否有任何有效的算法可以找到所需的最佳箱数和数据点数(在这种情况下是移动电话),这些数据点将分为每个类别。

1 个答案:

答案 0 :(得分:0)

这不是一个标准的公式,但想要发布,因为它似乎与我测试的数据集一起使用。

  1. 查找所有手机的平均价格。

    Ex:5手机,价格分别为10,20,40,80,200

    平均值为350/5 = 70

  2. 从平均价格中减去最低价格:70 - 10 = 60 - >将其命名为N1

  3. 从最高价格中减去平均价格:200 - 70 = 130 - >将其命名为N2

  4. 找出比率N2 / N1:130/60:大致为2

    这表明在更高的范围内每1个垃圾箱在较低的价格范围内拥有2个垃圾箱会更好。

  5. 所以,例如,在70以下需要2个箱子。范围0 - 35(2个手机),36 - 70个(1个手机)

    高于70的1个箱子:范围71 - 200(2个手机)

  6. 如您所见,垃圾箱和垃圾箱尺寸的数量相当合理。