稀疏矩阵中聚类元素的距离度量

时间:2011-03-09 18:10:44

标签: cluster-analysis data-mining distance sparse-matrix k-means

我试图使用K-means基于大约1200个二进制变量来聚类大约12000个元素。传统的距离指标(欧几里德,曼哈顿,汉明,莱文施泰因)都没有产生令人满意的结果。

我设计了以下指标。

Dist(x,y)= Min of P(X = 0 | Y = 1) P(y = 0的| X = 1)

有没有人对这类问题使用类似的方法?使用此指标有任何明显的缺陷吗?我对数据挖掘相对较新,并希望得到任何反馈。

由于

2 个答案:

答案 0 :(得分:1)

您尝试建模的域名是什么?您可以使用域中的洞察力进行群集吗? 在这种一般情况下,可以说很少。我会尝试dimension reduction以便首先获得更有意义的功能,稍后群集,但使用领域知识可以在这里提供帮助。

答案 1 :(得分:1)

您可以使用Jaccard的二进制属性距离。 假设您正在比较2行A和B。

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

Jaccard系数

J = M11/(M11+M10+M01)

Jaccard距离将是:

D=(M01+M10)/(M11+M10+M01)