比较列表的元素并应用条件

时间:2018-05-25 14:52:35

标签: r cluster-analysis

使用K-means算法,我将每日公司的回报分类为10(= k)组。我已经在我的数据库的每个窗口(1个月)上应用了此过程。现在,我想比较时间比较集群。换句话说,我想确定窗口t + 1的哪个簇对应于窗口t的第一个簇(假设C1)。然后,窗口t + 1的哪个簇对应于窗口t的第二簇(比如说C2)。等等10个窗口集群... 为了将两个集群视为相似,我所设想的假设如下:在窗口t的一个集群中出现的最少60%的公司必须在窗口t + 1处出现在集群中。

我有4个变量的数据帧(即Df)(即WindClus,Window,Cluster和Company)。

  • WindClus Window Cluster 的连接。
  • Window 构造为非重叠滚动窗口;每个窗口代表1个月。
  • 每个 Window 包含10个 Clusters (组),每个 Cluster 收集多个公司

请参阅以下脚注中的网址图片,以获得更好的图片1

如何实现群集的成对比较?并且,根据结果,改变簇号以对应于新簇号?

1 个答案:

答案 0 :(得分:1)

K-means是随机的。它甚至不会给你在同一个月运行两次的相同结果。

所以期望群集从一个月到另一个月具有1:1的对应关系!

你可以做的是加入所有数据,只运行k-means一次(或更好,运行几次以检查结果是否稳定 - 非常不同的结果表明结果不好!)然后拆分聚类后​​的数据。