基于Pearson相关的聚类

时间:2015-06-11 10:36:23

标签: cluster-analysis data-mining k-means hierarchical-clustering dbscan

我有一个用例,我每15分钟有1个月的流量数据。 这些数据是针对netwrok中的各种资源收集的。

现在我需要对相似的资源进行分组(基于流量使用模式超过00小时到23:45)。

检查两个资源是否具有相似流量行为的一种方法是我可以对所有资源使用Pearson相关系数并创建N * N矩阵。

我的问题是我应该采用哪种方法来聚类类似的资源? K-Means聚类中的现有方法基于欧氏距离。我可以根据模式的相似性使用哪种算法进行聚类?

欢迎任何有关可能解决方案的想法或链接。我想用Java实现。

1 个答案:

答案 0 :(得分:1)

Pearson相关性与均值不相容。因此,不得使用k- 表示 - 它适用于最小二乘,但不适用于相关。

相反,只需使用层次凝聚聚类,这将与Pearson相关矩阵一起使用。或者DBSCAN:它也适用于任意距离函数。您可以设置一个阈值:绝对相关,例如+0.75,可能是epsilon的理想值。但是为了感受你的距离函数,HAC使用的树状图可能更容易。

请注意,Pearson未定义为常量模式。如果您的资源使用0,则您的距离将是未定义的。