Question

我使用scikit-learn库中的DBSCAN实现，结果很奇怪。估计簇的数量随着参数MinPts（min_samples）的增加而增加，并且根据我对算法的理解，这不应该发生。

以下是我的结果：

Estimated number of clusters:34 eps=0.9 min_samples=13.0
Estimated number of clusters:35 eps=0.9 min_samples=12.0
Estimated number of clusters:42 eps=0.9 min_samples=11.0 <- strange result here
Estimated number of clusters:37 eps=0.9 min_samples=10.0   
Estimated number of clusters:53 eps=0.9 min_samples=9.0
Estimated number of clusters:63 eps=0.9 min_samples=8.0

我使用scikit-learn这样：

X = StandardScaler().fit_transform(X)
db = DBSCAN(eps=eps, min_samples=min_samples, algorithm='kd_tree').fit(X)

和X是一个包含~20万个12维点的数组。

这里有什么问题？

Answer 1

DBSCAN将点/样本分为三类：

核心：生活在一个密集的街区，因此可能会产生一个集群。 scikit-learn实现中的min_samples是邻域密度参数。
密度可达：足够接近核心点，成为其集群的一部分。
异常值：其他所有。

现在，因为你需要一个更密集的核心点邻域，你得到更少的核心点，但核心点 x 失去其状态可以有三种效果，具体取决于其邻域之外的密度： / p>

x 仍然可以从其前一个群集的核心点到达密度，其余核心点可以将群集保持在一起。集群数量没有变化。
x 仍然可以从至少两个核心点到达密度，但不再充当核心点之间的密度连接“桥”，导致它们形成单独的簇。群集数量增加， x 分配给另一个群集。
x 及其邻居点都不能维持其前一个群集，它会消失，将 x 留作异常值。群集数量减少。

随着scikit-learn DBSCAN中MinPts的增加，簇数增加

1 个答案: