我有12个消费者的时间序列数据。对应于12个消费者(名为a ... l
)的数据是
我想聚集这些消费者,以便我可以知道哪些消费者具有最相似的消费行为。因此,我发现了聚类方法pamk,它自动计算输入数据中的聚类数。
我假设我只有两个选项来计算任意两个时间序列之间的距离,即Euclidean和DTW。我尝试了他们两个,我确实得到了不同的集群。现在问题是我应该依赖哪一个?为什么?
结论: 在这种情况下,您将如何确定哪种聚类方法最佳?
注意:我也在Cross-Validated上提出了相同的问题。
答案 0 :(得分:0)
上面没有一个时间序列与我相似。你看任何模式吗?也许没有模式?
群集可视化表明也没有群集。 b
和l
似乎是最不寻常的异常值;然后是d,e,h
;但那里没有集群。
还尝试分层聚类。 树形图可能更容易理解。
但无论如何,可能没有集群。您需要为此结果做好准备,并将其视为有效的假设。 仔细检查任何结果。正如你所看到的,pam将总是返回一个结果,你绝对没有办法决定哪个结果比另一个更“正确”(很可能,都不正确,你应该依赖来回答你的问题。)