对于使用DBSCAN算法进行聚类的任何数据集,minpts = 4是否是最佳设置?

时间:2016-04-19 22:02:58

标签: parameters cluster-analysis dbscan

关于DBSCAN“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”的文章解释说,对于使用DBSCAN聚类数据点的任何数据集,minpts值必须为4。它是否为任何Eps值提供了最佳结果?

3 个答案:

答案 0 :(得分:1)

没有"总是最好的"。作者建议IIRC首先尝试这个价值。这并不意味着你有时不应该尝试其他价值观。我通常从minpts = 10开始......

此外,您仍需要改变epsilon。选择epsilon比使用minpts更重要。这两个参数不是独立的。增加分数可能意味着你需要 增加epsilon和反过来。

答案 1 :(得分:1)

通常,您的minpts值应为> = d + 1,其中d是数据点的维数。因此,通常将其视为分钟数= 2 * d,如Erich Schubert在第一个答案中所述。

但是在某些情况下,例如当您知道您的数据集包含大量噪声/离群值时,建议将minpts的值增大。

有时您可能必须咨询域专家才能获取分钟数的值。

答案 2 :(得分:0)

在后来的工作中,作者建议使用 minPts = 2 * dim 作为默认值。

  

学家Sander,M。Ester,H.-P。 Kriegel和X. Xu。空间数据库中的基于密度的聚类:
算法GDBSCAN及其应用。

数据挖掘和知识发现2,2(1998),169- 194.
  http://dx.doi.org/10.1023/A:1009745219419

如果您有重复项,请使用更大的值: “我们的实验表明,这个值适用于数据库D,其中每个点只出现一次,即,如果D实际上是一组点。

较小的值通常在计算上更有效。因此,保持minPts小但不能太小。

始终研究您的结果。不经双重检查就不要使用它。