Question

我想聚集一些包含每日点击率的曲线。数据集是按时间序列的点击率数据。

y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]

我不知道如何使用kmeans测量两条曲线的相似性。是否有任何用于此目的的论文或某些图书馆？

Answer 1

对于相似性，您可以使用任何类型的时间序列距离。其中许多将执行对齐，也可以执行不同长度的序列。

但是，k-means不会让你到任何地方。

K-means 不意味着与任意距离一起使用。它实际上不使用距离进行分配，而是使用最小和的平方（恰好是欧氏距离的平方） - 又名：方差。

平均值必须与此目标一致。不难看出平均值也最小化了平方和。这保证了k均值的收敛：在每个单步骤（赋值和均值更新）中，目标都减少了，因此它必须在有限数量的步骤之后收敛（因为只有有限数量的离散赋值）。

但是不同长度的多个时间序列的平均值是什么？