我有7个已知的质心形状=(7,4)和一个numpy数组=(160000,4)。
如果我从numpy数组中删除一个数据集并只使用6个质心,则kmeans聚类算法可以很好地工作。如果我包含具有噪声数据的数据集,则kmeans聚类算法会遇到问题。
使用scikit-learn kmeans聚类减少噪音或过滤掉它们的一些推荐方法是什么?
作为替代方案,我考虑过使用dbscan算法http://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html
我也尝试使用init = initial_centroids,但这似乎没有什么区别
fprintf(' %u %u %.12g %.12g %.12g %.12g %.12g %.12g \r\n', DataOut)
% 34 7 1 1 0 0.0902364 -4.75343 -4.74065
% 2.917760e-02 0 5.32835 1.97133 1.23598 9.49706 0.890008 16.1658