我正在使用Mahout Apache编写基于项目的推荐器(基于用户的类似项目评级),我想知道以下哪两个相似性指标最适合使用:
Pearson,Spearman,Euclidean,Tanimoto和Loglikelihood
答案 0 :(得分:0)
如果您有偏好值,则应使用人物关联或欧几里德距离相似度量标准。如果您没有偏好值,则应使用Tanimoto系数或Loglikelihood。要选择要使用的缩小范围,应对数据集执行评估。这就是使用mahout评估框架的原因。您可以评估许多指标,如均方误差(MSE),绝对均方误差,精度,召回,MAP ......
我编码了调整余弦相似度,Pearson相关的变体可以得到更好的结果,但速度较慢。