对时间序列数据进行聚类

时间:2015-11-13 05:45:56

标签: r time-series cluster-analysis correlation

我有12个消费者的时间序列数据。对应于12个消费者(名为a ... l)的数据是 enter image description here

我想聚集这些消费者,以便我可以知道哪些消费者具有最相似的消费行为。因此,我发现了聚类方法pamk,它自动计算输入数据中的聚类数。

我假设我只有两个选项来计算任意两个时间序列之间的距离,即EuclideanDTW。我尝试了他们两个,我确实得到了不同的集群。现在问题是我应该依赖哪一个?为什么?

当我使用Eulidean距离时,我得到了以下群集: enter image description here

并且使用了DTW距离 enter image description here

结论:   在这种情况下,您将如何确定哪种聚类方法最佳?

注意:我也在Cross-Validated上提出了相同的问题。

1 个答案:

答案 0 :(得分:0)

  1. 上面没有一个时间序列与我相似。你任何模式吗?也许没有模式?

  2. 群集可视化表明也没有群集bl似乎是最不寻常的异常值;然后是d,e,h;但那里没有集群。

  3. 还尝试分层聚类。 树形图可能更容易理解。

  4. 但无论如何,可能没有集群。您需要为此结果做好准备,并将其视为有效的假设。 仔细检查任何结果。正如你所看到的,pam将总是返回一个结果,你绝对没有办法决定哪个结果比另一个更“正确”(很可能,都不正确,你应该依赖来回答你的问题。)