应用错误收集

时间：2019-07-17 21:06:39

标签： python machine-learning cluster-analysis data-analysis

我有一些2D数据（x，y），我需要确定在x方向上有许多彼此靠近的数据点的位置。有3个明显的群集，其中所有x点都靠在一起，其余数据不属于它们。我打算使用k-means聚类算法，但这似乎是对所有数据进行聚类，而我只想标记数据中的3个聚类数据，这些数据显然是聚类的，其余的标记为普通数据。

数据位于单独的csv文件中，我处理这些文件，然后将其读入一个大数据框。到目前为止，在处理数据时，我已经过滤掉了处理过的数据超过一定长度的文件，但这显然意味着有时群集的一部分会从文件中丢失，或者正常数据会被丢失。

答案 0 :(得分：0)

您可以尝试使用类似DBSCAN的方法，该方法允许将点归类为“噪声”，并且似乎正是您所追求的。 scikit项目有一个与此相关的分层版本，称为hdbscan

Google的各种发现documents描述了k均值聚类的替代方法。 hdbscan文档对comparing alternatives也有很好的描述。