我正在寻找能够处理每个对象的多个时间序列信息的聚类算法。
例如,对于公司“A”,我们有3个功能的时间序列(例如收入,销售,库存)
同样,公司“B”也具有相同功能的相同时间序列。等等..
然后,我们如何在公司集之间建立集群? 有没有一些明智的方法来解决这个问题?
答案 0 :(得分:3)
许多聚类算法要求您提供两点之间相似性或距离的一些度量。您需要决定哪些功能很重要以及实际距离是多少。一种方法是使用两个时间序列之间的相关性。这给你一个相似之处。如果你必须将它转换为一个距离,我将使用sqrt(1-r),其中r是相关性,因为如果你看,例如在http://www.analytictech.com/mb876/handouts/distance_and_correlation.htm底部的等式中,如果在n维空间中有点,则可以看出这与距离成正比。如果你有三个不同的时间序列(收入,销售,库存),我会使用相同类型的两个时间序列之间的相关性计算出的三个距离的总和。
另一种选择,特别是如果时间序列不是很长,则将长度为n的时间序列视为n维空间中的一个点,并将其提供给聚类算法,或使用http://en.wikipedia.org/wiki/Principal_component_analysis来通过查看最重要的组件将n维度降低到1(当您这样做时,使用最不重要的组件绘制点并调查从其他组件中脱颖而出的点永远不会受到伤害。数据出错的点有时会在这里脱颖而出。)