如何在Spark ALSModel中设置评级

时间:2019-04-25 04:05:31

标签: pyspark recommendation-engine collaborative-filtering

我正在使用Spark ALS训练具有隐式反馈的模型。 但是我困惑应该如何设置训练和测试数据集。

我正在训练一个模型来做推荐。数据集的格式为(user_id,item_id,等级)。 “评分”是用户单击某项的次数。如果用户从未单击过某个项目,则评分为零。

我的问题是:

  1. 在火车数据集中,是否应该删除所有零额定值?
  2. MPI(平均百分等级)应该是评估模型的好方法。我认为应该为测试数据集删除零评级,因为零不会影响MPR。我说的对吗?

我尝试了其他评估方法。例如RMSE和AUC(具有功能areaUnderRoc())。 RMSE不好,因为反馈是隐式的。 AUC不好,因为这不是二值化的问题。

现在我要尝试MPR,我需要一些建议。

0 个答案:

没有答案