k-means算法会改善数据处理的性能吗?

时间:2015-10-23 04:18:33

标签: performance dataset k-means

我试图将k-means算法应用于大型数据集,因为k-means的目标是将一组数据点划分为k个簇。 我不确定我是否会通过k-means集群重新划分数据集,是否能够提高数据处理的性能?

1 个答案:

答案 0 :(得分:0)

答案是肯定的。试试这个,

将原始数据集划分为块;每个块单元,称为单元块(UB),包含至少一个模式。我们可以通过简单的计算找到单位块(CUB)的质心。所有计算的CUB形成表示原始数据集的简化数据集。然后使用简化的数据集来计算原始数据集的最终质心。我们只需要检查候选簇边界上的每个UB,找到UB中每个模式最接近的最终质心。通过这种方式,我们可以大大减少计算最终收敛质心的时间。