标签: data-mining binary-data mahout
我有一个包含BINARY用户/项目特征矩阵的大型数据集:
答案 0 :(得分:1)
不,用户和项目的聚类是单独的进程。虽然在精神上它是完全相同的过程,但只是应用了两种不同的方式。
如果您想在Mahout中获得更具体的答案,您必须详细说明您正在使用的代码部分,因为有几个不同的部分涉及群集。
项目中有一些凝聚性聚类,适用于任何相似性度量。我所知道的其他实现肯定是“k-means”变种,假设连续向量空间而不是{0,1}上的向量。你需要一种k-medoids算法,我认为这不在我所知道的项目中。