我一直试图弄清楚如何编写一个函数,根据其密度(出现次数/边长)将数据样本合并在一起。但是那里没有很多例子。
输出会给出两个边的矢量:
根据阈值(可能是40%?)对密度不同的数据进行分组所需的数量给出了分箱数量
并且边缘的长度由相邻数据组是否具有相似密度确定。 (相似的密度组合在一起,但如果相邻的箱子密度增加或减少40%,则需要另一个箱子。)
为了说明我的观点,下面是一个简单的例子:
我的数据值范围是1到10,我有10次观察,其中x = [1,2,3,4,5,5,5,6,6,7];
x将导致边缘为[1,5,6,7,8]的范围,因此有四种状态只是因为这些区域代表不同的密度聚类。
只是提到我的实际数据是连续的,任何帮助都表示赞赏。
我想到了大数据样本的初步算法:
按升序排序数据。
组数据,其中至少一个组有10个元素
计算并比较密度,将相似的密度组合在一起。
我被困在第3点。我不知道如何有效地将它们分组。如果密度缓慢增加,我的障碍就来自于密度:1,2,3,4,5,6,7,8,9,10
我在哪里打电话给它,说一组与另一组的密度不同。