基于项目的相似度量

时间:2014-11-25 02:55:32

标签: mahout similarity euclidean-distance pearson

我正在使用Mahout Apache编写基于项目的推荐器(基于用户的类似项目评级),我想知道以下哪两个相似性指标最适合使用:

Pearson,Spearman,Euclidean,Tanimoto和Loglikelihood

1 个答案:

答案 0 :(得分:0)

如果您有偏好值,则应使用人物关联或欧几里德距离相似度量标准。如果您没有偏好值,则应使用Tanimoto系数或Loglikelihood。要选择要使用的缩小范围,应对数据集执行评估。这就是使用mahout评估框架的原因。您可以评估许多指标,如均方误差(MSE),绝对均方误差,精度,召回,MAP ......

我编码了调整余弦相似度,Pearson相关的变体可以得到更好的结果,但速度较慢。