使用加权属性聚类对象

时间:2011-07-13 22:13:15

标签: attributes cluster-analysis data-mining distance

我想聚类一组具有多个属性的对象,而某些属性比其他属性更重要 是否有一种简单的方法可以赋予这些特定属性一定的权重,使其比其他属性更重要?

1 个答案:

答案 0 :(得分:2)

查看 - 您的集合中的每个对象实例都可能表示为多维向量(对象的每个属性都是向量的一个组件)。因此,您可以使用基于距离的聚类(类似向量之间的距离非常小),例如k-means。 您需要在矢量之间定义自己的距离函数

例如,如果你的对象有3个属性(X Y Z),那么每个属性都有它的权重(重要性)(wx wy wz)。 根据这个,例如,你可以用这种方式定义两个矢量(X1 Y1 Z1)和(X2 Y2 Z2)之间的距离函数(cosinus距离):

                         (wx^2*X1*X2+wy^2*Y1*Y2+wz^2*Z1*Z2)
dist= -----------------------------------------------------------------------
       [(wx^2*X1^2+wy^2*Y1^2+wz^2*Z1^2)*(wx^2*X2^2+wy^2*Y2^2+wz^2*Z2^2)]^0,5