基于SAS中的几个时间序列变量来集群公司

时间:2017-05-13 18:46:59

标签: sas statistics time-series cluster-analysis

我有大约70家公司,我希望根据使用SAS的三个时间序列变量将其集中到较小的组中。

数据经过标准化和堆叠。它看起来像这样:

Day  Company  Var1  Var2  Var3
1       A     0.01  0.015 0.14
2       A      ...
3       A      ...
...
99      Z      ...
100     Z      ...

以下是我的想法:

  1. 我通过计算它们的欧几里德距离Var4
  2. 将这三个变量合并为一个变量

    然后我将取消堆叠数据并得到一个像这样的新数据集:

    Day  Var4_A  Var4_B ... Var4_Z
    1    0.141    0.1   ...  0.23
    2        
    ...
    99   
    100   
    
    1. 我将新数据集发送到proc相似性以获得某种相似性 基质
    2. 我将相似性矩阵发送到proc集群并获取公司组
    3. 我的问题是:

      步骤1是否是将三个变量结合起来的明智方法?我在网上发现了一些使用第2步和第3步聚类时间序列数据的例子,但它们似乎只使用了1个变量。

1 个答案:

答案 0 :(得分:0)

通常的方法是使用动态时间扭曲距离。但是你可能不需要这个,假设公司之间没有时间延迟。

您是否曾尝试将此数据集直接转换为公司(然后是havong days x变量新变量)并使用欧几里德距离?

采用所有变量的欧几里德范数对我来说听起来并不是一个好主意......