需要比较K均值聚类的相似度

时间:2019-11-01 18:08:48

标签: python algorithm machine-learning cluster-computing k-means

我需要比较聚类的相似性,但是聚类技术会产生长度不相等的聚类。

比方说,我有4个数据点A,B,C和D。并假设这些数据集在一段时间内发生了变化。我在第一个小时对这些数据运行KMeans聚类,并得到3个聚类[(A,B),(C),(D)]。然后,第二个小时,我再次对该数据运行KMeans聚类,并获得另外3个聚类[(B,C),(A),(D)],依此类推。

我需要通过比较第一个小时和第二个小时的聚类来测量这些聚类随时间的变化,并为其分配相似度。

例如:

第一个小时中的第三个集群与第二个小时中的第三个集群更相似,为100%,这里没有问题,但是问题是我如何衡量其他集群。

1-(A,B)一起开始然后分散了。如果说(A,B)像(B,C)一样占50%。

2-我将无法在(A)与(A)的(A)和(C)与(A,B)的之间分配分数,因为它们的长度不一样,如果按照计算它们的方法,我会得到多个相似的分数。

如果有人有解决此问题的想法。

1 个答案:

答案 0 :(得分:0)

检查此想法,看是否可行: 1-运行k均值聚类并在所需的任何时间段内保存质心 2-通过测量质心的运动,您可以每小时进行比较

希望这会有所帮助!