在我的数据中,有一千万个二进制属性, 但其中只有一些是提供信息的,其中大多数都是零。
格式如下:
data attribute1 attribute2 attribute3 attribute4 .........
A 0 1 0 1 .........
B 1 0 1 0 .........
C 1 1 0 1 .........
D 1 1 0 0 .........
什么是聚类的智能方法? 我知道K-means聚类。但我不认为这种情况适合。 因为二进制值使得距离不那么明显。 它将遭受高维度的诅咒。 如果我基于那些少量的信息属性进行聚类,它仍然具有许多属性。
我认为决策树可以很好地聚类这些数据。 但它是一种分类算法!
我该怎么办?
答案 0 :(得分:1)
您是否考虑过频繁项目集挖掘?
K-means肯定是一个坏主意,但是当使用适当的距离函数(如jaccard,hamming,dice,......)时,层次聚类可能会起作用。
无论如何,什么是群集?算法的选择需要适合您想要查找的类型。在二进制数据上,基于质心的方法(如k-means)没有意义,因为质心不太有意义。
如果数据是“购物车”类型的信息,请考虑使用频繁的项目集挖掘,因为它允许发现重叠的子集。