如何用kmeans聚类曲线?

时间:2013-04-02 05:08:19

标签: math cluster-computing data-mining cluster-analysis probability

我想聚集一些包含每日点击率的曲线。 数据集是按时间序列的点击率数据。

y1 = [time1:0.10,time2:0.22,time3:0.344,...]
y2 = [time1:0.10,time2:0.22,time3:0.344,...]

我不知道如何使用kmeans测量两条曲线的相似性。 是否有任何用于此目的的论文或某些图书馆?

1 个答案:

答案 0 :(得分:0)

对于相似性,您可以使用任何类型的时间序列距离。其中许多将执行对齐,也可以执行不同长度的序列。

但是,k-means不会让你到任何地方。

K-means 意味着与任意距离一起使用。它实际上不使用距离进行分配,而是使用最小和的平方(恰好是欧氏距离的平方) - 又名:方差。

平均值必须与此目标一致。不难看出平均值也最小化了平方和。这保证了k均值的收敛:在每个单步骤(赋值和均值更新)中,目标都减少了,因此它必须在有限数量的步骤之后收敛(因为只有有限数量的离散赋值)。

但是不同长度的多个时间序列的平均值是什么?