Apache Mahout标准化评级数据集

时间:2014-09-14 11:10:17

标签: mahout mahout-recommender

在应用算法的其余部分之前,可以使用均值居中或z分数应用标准化评级数据吗?

提前谢谢

1 个答案:

答案 0 :(得分:1)

您是在尝试预测评级还是尝试推荐消费产品?

很少使用推荐人真的试图预测收视率,他们通常会以最佳方式尝试排名推荐,以便他们能够展示前几名。在这种情况下使用log-likehood ratio效果最好,它将忽略评级,因为它使用概率方法计算权重。

如果你有大拇指评级和赞成评级,你需要决定什么是明确的大拇指,因为你只想推荐好东西。例如,如果你有一个1-5星评级系统,最好扔掉所有1-3个评级,只使用4-5。这似乎与一些人相反,但确实产生了更好的排名。如果您正在考虑交叉验证离线测试,请确保使用平均精度等平均值 - 您需要精确度量,因为此度量排名,请勿使用RMSE,其测量评级

如果您确定要预测评级,可以将每个人评级标准化为适合所有用户的相同比例,但在推荐人中不要使用SIMILARITY_LOGLIKELIHOOD,请使用SIMILARITY_COSINE,它不会忽略偏好权重。然后,您可以测量RMSE以进行交叉验证。