如何在R中找到DBSCAN()参数的最佳点

时间:2017-11-04 11:44:41

标签: r cluster-analysis dbscan

如何找到DBSCAN()参数(eps,Minpts)的最佳点和适当数量?

来自包fpc的DBSCAN()实现了DBSCAN(基于密度的聚类)聚类方法。

2 个答案:

答案 0 :(得分:1)

可以找到选择原始DBSCAN论文中讨论的minPts和epsilon的策略:

  

Ester,M.,Kriegel,H.P.,Sander,J。,& Xu,X。(1996年8月)。 基于密度的算法,用于在具有噪声的大型空间数据库中发现聚类。在KDD中(第96卷,第34期,第226-231页)。

还阅读一些较新的发展:

  

Schubert,E.,Sander,J.,Ester,M.,Kriegel,H.P。& Xu,X。(2017)。 重新访问DBSCAN,重新审视:为什么以及如何(仍然)使用DBSCAN 。 ACM数据库系统事务(TODS),42(3),19。

这篇较新的文章还讨论了如何设置,以及如何设置参数。它提供了一些有趣的见解,可能会出错。

我没有找到本文的开放访问版本,但您可以使用Sci-Hub (Wikipedia)

当然,如果选择epsilon很困难,您可能需要使用OPTICS或HDBSCAN *。

答案 1 :(得分:0)

我们在?dbscandbscan中讨论了这一点:

“设置DBSCAN的参数:minPts通常设置为数据的维度加一或更高。kNNdistplot中的拐点可用于为eps找到合适的值。”