Scikit的DBSCAN聚类算法中有哪些噪声样本?

时间:2017-07-25 20:44:54

标签: python scikit-learn cluster-analysis dbscan

如果我在相似度矩阵上应用Scikit的DBSCAN(http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html),我会得到一系列标签。其中一些标签是-1。文档称它们为噪声样本。

这些是什么?它们都属于一个集群,还是属于他们自己的集群,因为它们很吵?

谢谢

1 个答案:

答案 0 :(得分:2)

这些并不完全是群集的一部分。它们只是不属于任何集群的点,可以被忽略"在某种程度上。

请记住,DBSCAN代表"基于密度的应用噪声空间聚类。" DBSCAN检查以确保一个点在指定范围内有足够的邻居来将点分类到集群中。

但是,如果不符合落入任何主要集群的标准,会发生什么?如果某个点在指定半径内没有足够的邻居被视为群集的一部分,该怎么办?这些是给定-1的群集标签并被视为噪声的点。

那又怎样?

好吧,如果您正在分析数据点而您只对一般集群感兴趣,那么您可以降低数据大小并消除噪音。或者,如果您使用聚类分析对数据进行分类,在某些情况下可以将噪声作为异常值丢弃。

在异常检测中,不适合任何类别的点也很重要,因为它们可能代表问题或罕见事件。