群集二进制数据

时间:2012-11-23 19:34:25

标签: data-mining binary-data mahout

我有一个包含BINARY用户/项目特征矩阵的大型数据集:

  1. 我需要对用户和项目进行聚类。无论如何在Mahout同时进行吗?
  2. 更重要的是,如果我使用loglikelihood作为相似性度量,那么什么是聚类 算法实际上会支持这样的距离度量来聚类数据吗?

1 个答案:

答案 0 :(得分:1)

不,用户和项目的聚类是单独的进程。虽然在精神上它是完全相同的过程,但只是应用了两种不同的方式。

如果您想在Mahout中获得更具体的答案,您必须详细说明您正在使用的代码部分,因为有几个不同的部分涉及群集。

项目中有一些凝聚性聚类,适用于任何相似性度量。我所知道的其他实现肯定是“k-means”变种,假设连续向量空间而不是{0,1}上的向量。你需要一种k-medoids算法,我认为这不在我所知道的项目中。