数据聚类 - 数据的预处理

时间:2013-03-12 10:48:56

标签: cluster-analysis

这些天我使用的是一些聚类算法,我只是想问一个与此字段相关的问题。也许那些在这个领域工作的人已经有了这个答案。

在群集过程中,我需要有一些我要聚集的训练数据。迭代次数(e.x.K-Means算法)取决于训练数据的数量(向量的数量)。有没有方法可以从训练数据中找到最重要的数据。我的意思是:不是用所有数据训练K-Means,而是有一种方法可以找到重要的向量(影响大多数聚类的那些向量)并使用这些“重要”向量(从训练数据)到训练算法。

我希望你能理解我。 感谢您阅读并尝试回答。

1 个答案:

答案 0 :(得分:2)

“培训”和“测试”数据是分类的概念,而不是聚类分析。

K-means是一种统计方法。如果你想加快速度,那么在一个足够大的随机样本上运行它会给你几乎相同的结果。