使用K-means算法,我将每日公司的回报分类为10(= k)组。我已经在我的数据库的每个窗口(1个月)上应用了此过程。现在,我想比较时间比较集群。换句话说,我想确定窗口t + 1的哪个簇对应于窗口t的第一个簇(假设C1)。然后,窗口t + 1的哪个簇对应于窗口t的第二簇(比如说C2)。等等10个窗口集群... 为了将两个集群视为相似,我所设想的假设如下:在窗口t的一个集群中出现的最少60%的公司必须在窗口t + 1处出现在集群中。
我有4个变量的数据帧(即Df)(即WindClus,Window,Cluster和Company)。
请参阅以下脚注中的网址图片,以获得更好的图片1。
如何实现群集的成对比较?并且,根据结果,改变簇号以对应于新簇号?
答案 0 :(得分:1)
K-means是随机的。它甚至不会给你在同一个月运行两次的相同结果。
所以不期望群集从一个月到另一个月具有1:1的对应关系!
你可以做的是加入所有数据,只运行k-means一次(或更好,运行几次以检查结果是否稳定 - 非常不同的结果表明结果不好!)然后拆分聚类后的数据。