Question

在我的数据中，有一千万个二进制属性，但其中只有一些是提供信息的，其中大多数都是零。

格式如下：

data  attribute1 attribute2 attribute3 attribute4   .........
A          0          1           0         1       .........
B          1          0           1         0       .........
C          1          1           0         1       .........
D          1          1           0         0       .........

什么是聚类的智能方法？我知道K-means聚类。但我不认为这种情况适合。因为二进制值使得距离不那么明显。它将遭受高维度的诅咒。如果我基于那些少量的信息属性进行聚类，它仍然具有许多属性。

我认为决策树可以很好地聚类这些数据。但它是一种分类算法！

我该怎么办？

Answer 1

您是否考虑过频繁项目集挖掘？

K-means肯定是一个坏主意，但是当使用适当的距离函数（如jaccard，hamming，dice，......）时，层次聚类可能会起作用。

无论如何，什么是群集？算法的选择需要适合您想要查找的类型。在二进制数据上，基于质心的方法（如k-means）没有意义，因为质心不太有意义。

如果数据是“购物车”类型的信息，请考虑使用频繁的项目集挖掘，因为它允许发现重叠的子集。

如何使用离散二进制属性聚类数据？

1 个答案: