我有一个数据框all_data
,其中包含各个客户的日期和销售交易总数:
date userid sales
2018-03-10 1 20.00
2018-03-10 3 32.19
2018-03-10 4 24.61
2018-03-10 8 23.08
2018-03-13 1 14.42
2018-03-13 2 12.42
2018-03-13 5 2.60
2018-03-13 8 4.61
2018-03-15 1 5.42
2018-03-15 5 8.43
2018-03-15 8 4.61
....
我将数据框按userid
分组,并添加了零以填充未发生交易的日期。现在,我可以执行以下操作,并查看用户#8的时间序列:
single_user = all_data.get_group(8)
date sales
2018-03-10 23.08
2018-03-11 0
2018-03-12 0
2018-03-13 4.61
2018-03-14 0
2018-03-15 52.32
...
我想找到具有类似消费行为的个人群体,hierarchical clustering似乎是一种实现方式。 linkage
使用1d压缩距离矩阵或2d观察向量数组作为输入。如何将时间序列数据集处理为这些输入类型之一?