我有一些2D数据(x,y),我需要确定在x方向上有许多彼此靠近的数据点的位置。有3个明显的群集,其中所有x点都靠在一起,其余数据不属于它们。我打算使用k-means聚类算法,但这似乎是对所有数据进行聚类,而我只想标记数据中的3个聚类数据,这些数据显然是聚类的,其余的标记为普通数据。
数据位于单独的csv文件中,我处理这些文件,然后将其读入一个大数据框。到目前为止,在处理数据时,我已经过滤掉了处理过的数据超过一定长度的文件,但这显然意味着有时群集的一部分会从文件中丢失,或者正常数据会被丢失。
答案 0 :(得分:0)
您可以尝试使用类似DBSCAN的方法,该方法允许将点归类为“噪声”,并且似乎正是您所追求的。 scikit项目有一个与此相关的分层版本,称为hdbscan
Google的各种发现documents描述了k均值聚类的替代方法。
hdbscan
文档对comparing alternatives也有很好的描述。