标签: pyspark recommendation-engine collaborative-filtering
我正在使用Spark ALS训练具有隐式反馈的模型。 但是我困惑应该如何设置训练和测试数据集。
我正在训练一个模型来做推荐。数据集的格式为(user_id,item_id,等级)。 “评分”是用户单击某项的次数。如果用户从未单击过某个项目,则评分为零。
我的问题是:
我尝试了其他评估方法。例如RMSE和AUC(具有功能areaUnderRoc())。 RMSE不好,因为反馈是隐式的。 AUC不好,因为这不是二值化的问题。
现在我要尝试MPR,我需要一些建议。