关于DBSCAN“https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf”的文章解释说,对于使用DBSCAN聚类数据点的任何数据集,minpts值必须为4。它是否为任何Eps值提供了最佳结果?
答案 0 :(得分:1)
没有"总是最好的"。作者建议IIRC首先尝试这个价值。这并不意味着你有时不应该尝试其他价值观。我通常从minpts = 10开始......
此外,您仍需要改变epsilon。选择epsilon比使用minpts更重要。这两个参数不是独立的。增加分数可能意味着你需要 增加epsilon和反过来。
答案 1 :(得分:1)
通常,您的minpts值应为> = d + 1,其中d是数据点的维数。因此,通常将其视为分钟数= 2 * d,如Erich Schubert在第一个答案中所述。
但是在某些情况下,例如当您知道您的数据集包含大量噪声/离群值时,建议将minpts的值增大。
有时您可能必须咨询域专家才能获取分钟数的值。
答案 2 :(得分:0)
在后来的工作中,作者建议使用 minPts = 2 * dim 作为默认值。
学家Sander,M。Ester,H.-P。 Kriegel和X. Xu。空间数据库中的基于密度的聚类:
算法GDBSCAN及其应用。
数据挖掘和知识发现2,2(1998),169- 194.
http://dx.doi.org/10.1023/A:1009745219419
如果您有重复项,请使用更大的值: “我们的实验表明,这个值适用于数据库D,其中每个点只出现一次,即,如果D实际上是一组点。”
较小的值通常在计算上更有效。因此,保持minPts小但不能太小。
始终研究您的结果。不经双重检查就不要使用它。