分层聚类时间序列

时间:2019-11-01 12:47:58

标签: python pandas scipy time-series hierarchical-clustering

我有一个数据框all_data,其中包含各个客户的日期和销售交易总数:

date        userid   sales
2018-03-10     1     20.00
2018-03-10     3     32.19
2018-03-10     4     24.61
2018-03-10     8     23.08
2018-03-13     1     14.42
2018-03-13     2     12.42
2018-03-13     5     2.60
2018-03-13     8     4.61
2018-03-15     1     5.42
2018-03-15     5     8.43
2018-03-15     8     4.61
....

我将数据框按userid分组,并添加了零以填充未发生交易的日期。现在,我可以执行以下操作,并查看用户#8的时间序列:

single_user = all_data.get_group(8)

date        sales
2018-03-10  23.08
2018-03-11  0
2018-03-12  0
2018-03-13  4.61
2018-03-14  0
2018-03-15  52.32
...

我想找到具有类似消费行为的个人群体,hierarchical clustering似乎是一种实现方式。 linkage使用1d压缩距离矩阵或2d观察向量数组作为输入。如何将时间序列数据集处理为这些输入类型之一?

0 个答案:

没有答案