如何找到DBSCAN()参数(eps,Minpts)的最佳点和适当数量?
来自包fpc的DBSCAN()实现了DBSCAN(基于密度的聚类)聚类方法。
答案 0 :(得分:1)
你可以找到选择原始DBSCAN论文中讨论的minPts和epsilon的策略:
Ester,M.,Kriegel,H.P.,Sander,J。,& Xu,X。(1996年8月)。 基于密度的算法,用于在具有噪声的大型空间数据库中发现聚类。在KDD中(第96卷,第34期,第226-231页)。
还阅读一些较新的发展:
Schubert,E.,Sander,J.,Ester,M.,Kriegel,H.P。& Xu,X。(2017)。 重新访问DBSCAN,重新审视:为什么以及如何(仍然)使用DBSCAN 。 ACM数据库系统事务(TODS),42(3),19。
这篇较新的文章还讨论了如何设置,以及如何不设置参数。它提供了一些有趣的见解,可能会出错。
我没有找到本文的开放访问版本,但您可以使用Sci-Hub (Wikipedia)。
当然,如果选择epsilon很困难,您可能需要使用OPTICS或HDBSCAN *。
答案 1 :(得分:0)
我们在?dbscan
包dbscan
中讨论了这一点:
“设置DBSCAN的参数:minPts通常设置为数据的维度加一或更高。kNNdistplot
中的拐点可用于为eps找到合适的值。”