二进制值使用哪个距离度量?

时间:2019-11-20 09:58:04

标签: python machine-learning math cluster-analysis k-means

我有100个用户喜欢/不喜欢500个项目。 因此,我已经用二进制值转换了矩阵,即,如果用户u1喜欢项I1,则值为1;如果用户不喜欢项,则值为0。

矩阵如下:

enter image description here

因此,现在我需要将喜欢相似商品的相似用户聚集在一起。我已经使用K模式聚类对其进行聚类,但是我的轮廓分数非常低。我不确定应该使用哪个距离指标。 欧氏距离不是解决此问题的好方法。如果我的数据集很大,则Jaccard距离也不有效。为了降低模型成本,我应该使用哪个其他距离度量。

2 个答案:

答案 0 :(得分:1)

您可以考虑使用“汉明距离”来查找距离。有关在scipy库中实现的方法,请参见here的文档。

答案 1 :(得分:0)

处理此类数据的常用方法是使用非负矩阵分解(NMF)。粗略地讲,这意味着将矩阵分解为n x k和k x m矩阵,这些矩阵将用户映射到因子上,将因子映射到喜欢上。