Question

我读了几篇有关一维数组聚类的帖子，其中人们说聚类不适合一维数组，而应该使用内核密度估算。但是，没有人解释如何使用kde acctualy执行clustetring，如何检索输入数据的簇标签？

在scikit-learn中，我得到了我的单变量（一维）数据的核密度估计。

kde = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(features)

如何将其用于群集，即如何检索输入数据的群集标签？

我正在考虑两种可能的方法： a）使用kde为某些聚类估计器（例如kmeans）获得新的2D输入数据。我想以直方图（[值，频率]）的形式检索二维数据数组，但我不知道如何从kde中做到这一点？是否可以使用kde作为聚类算法的新输入数据集，比方说kmeans估算器？如果有，怎么样？如何从kde获取数据集？ b）直接使用kde来计算簇之间的边界。在我的特殊情况下，我知道有两个集群，我想找到它们之间的边界。而且我需要通过计算来计算，而不是手动查看情节...

Answer 1

您不会在密度估算值上运行聚类算法。

您希望在密度中找到局部最小值和最大值，以找到分割数据的位置。

如何在scikit-learn中使用KDE（核密度估计）进行一维数组聚类？

1 个答案: