集群的重要性是什么?

时间:2016-05-24 05:54:17

标签: cluster-analysis k-means unsupervised-learning

在无监督学习期间,我们进行聚类分析(如K-Means)将数据分组到多个聚类中 但是在实际场景中这些集群数据的用途是什么。

我认为在群集过程中我们会丢失有关数据的信息 是否有一些实际的例子,聚类可能是有益的?

1 个答案:

答案 0 :(得分:1)

信息丢失可能是故意的。以下是三个例子:

  • PCM信号量化(Lloyd' k-means出版物)。你知道传输的是一定数量(比方说10个)不同的信号,但是有失真。量化消除了失真并重新提取原始的10种不同信号。 在这里,您将丢失错误并保留信号。
  • 颜色量化(见维基百科)。为了减少图像中的颜色数量,一种非常好的方法使用k-means(通常在HSV或Lab空间中)。 k是所需输出颜色的数量。 此处的信息丢失是故意的,以便更好地压缩图像。 k-means试图用k种颜色找到图像的最小二乘误差近似值。
  • 在按时间序列搜索图案时,您还可以使用k-means等量化来将数据转换为符号表示。在深度学习之前,用于图像识别的最先进的视觉词语方法也使用了这种方法。
  • 探索性数据挖掘(聚类 - 有人可能会争辩说上面的用例不是数据挖掘/聚类;而是量化)。如果您的数据集一百万分,您要调查哪些分数?聚类方法尝试将数据分成多组,这些组应该更加同质并且更加不同。您不必查看每个对象,而只需查看每个群集的某些,以便了解有关整个群集(以及整个数据集)的信息。诸如k-means之类的质心方法甚至可以提供一个"原型"对于每个群集,尽管在群集中的其他点也是一个好主意。您可能还想进行异常值检测并查看一些异常对象。此方案介于采样代表对象减少数据集大小之间,以便更易于管理。以上几点的关键区别在于,结果通常不会被操作"自动,但因为探索性聚类结果太不可靠(因此需要多次迭代)需要手动分析。