我有大约70家公司,我希望根据使用SAS的三个时间序列变量将其集中到较小的组中。
数据经过标准化和堆叠。它看起来像这样:
Day Company Var1 Var2 Var3
1 A 0.01 0.015 0.14
2 A ...
3 A ...
...
99 Z ...
100 Z ...
以下是我的想法:
然后我将取消堆叠数据并得到一个像这样的新数据集:
Day Var4_A Var4_B ... Var4_Z
1 0.141 0.1 ... 0.23
2
...
99
100
我的问题是:
步骤1是否是将三个变量结合起来的明智方法?我在网上发现了一些使用第2步和第3步聚类时间序列数据的例子,但它们似乎只使用了1个变量。
答案 0 :(得分:0)
通常的方法是使用动态时间扭曲距离。但是你可能不需要这个,假设公司之间没有时间延迟。
您是否曾尝试将此数据集直接转换为公司(然后是havong days x变量新变量)并使用欧几里德距离?
采用所有变量的欧几里德范数对我来说听起来并不是一个好主意......