如何使用离散二进制属性聚类数据?

时间:2013-12-06 05:12:03

标签: machine-learning data-mining cluster-analysis

在我的数据中,有一千万个二进制属性, 但其中只有一些是提供信息的,其中大多数都是零。

格式如下:

data  attribute1 attribute2 attribute3 attribute4   .........
A          0          1           0         1       .........
B          1          0           1         0       .........
C          1          1           0         1       .........
D          1          1           0         0       .........

什么是聚类的智能方法? 我知道K-means聚类。但我不认为这种情况适合。 因为二进制值使得距离不那么明显。 它将遭受高维度的诅咒。 如果我基于那些少量的信息属性进行聚类,它仍然具有许多属性。

我认为决策树可以很好地聚类这些数据。 但它是一种分类算法!

我该怎么办?

1 个答案:

答案 0 :(得分:1)

您是否考虑过频繁项目集挖掘

K-means肯定是一个坏主意,但是当使用适当的距离函数(如jaccard,hamming,dice,......)时,层次聚类可能会起作用。

无论如何,什么是群集?算法的选择需要适合您想要查找的类型。在二进制数据上,基于质心的方法(如k-means)没有意义,因为质心不太有意义。

如果数据是“购物车”类型的信息,请考虑使用频繁的项目集挖掘,因为它允许发现重叠的子集。