如何根据每个箱的密度确定箱的数量和边长。 (箱子很可能不统一。)

时间:2013-10-18 14:03:34

标签: algorithm matlab histogram bin

我一直试图弄清楚如何编写一个函数,根据其密度(出现次数/边长)将数据样本合并在一起。但是那里没有很多例子。

输出会给出两个边的矢量:

  1. 根据阈值(可能是40%?)对密度不同的数据进行分组所需的数量给出了分箱数量

  2. 并且边缘的长度由相邻数据组是否具有相似密度确定。 (相似的密度组合在一起,但如果相邻的箱子密度增加或减少40%,则需要另一个箱子。)

  3. 为了说明我的观点,下面是一个简单的例子:

    我的数据值范围是1到10,我有10次观察,其中x = [1,2,3,4,5,5,5,6,6,7];

    x将导致边缘为[1,5,6,7,8]的范围,因此有四种状态只是因为这些区域代表不同的密度聚类。

    只是提到我的实际数据是连续的,任何帮助都表示赞赏。

    我想到了大数据样本的初步算法:

    1. 按升序排序数据。

    2. 组数据,其中至少一个组有10个元素

    3. 计算并比较密度,将相似的密度组合在一起。

    4. 我被困在第3点。我不知道如何有效地将它们分组。如果密度缓慢增加,我的障碍就来自于密度:1,2,3,4,5,6,7,8,9,10

      我在哪里打电话给它,说一组与另一组的密度不同。

0 个答案:

没有答案