了解Spark MLlib ALS.trainImplicit输入格式

时间:2016-12-28 11:25:16

标签: python pyspark collaborative-filtering

我正在尝试使用trainImplicit根据购买历史制作推荐系统。我的输入是在域[1,+ inf)(观看和购买的总和)。

所以输入RDD的元素如下所示:[(user_id,item_id),rating] --> [(123,5564),6] - 用户(id = 123)与项目(id = 5564)进行了6次交互。

我应该添加到我的RDD元素,例如[(user_id,item_id),rating] --> [(123,2222),0],这意味着给定的用户从未与给定的项目进行交互,或者ALS.implicitTrain是否隐含地执行此操作?

1 个答案:

答案 0 :(得分:1)

它没有必要(隐含)而且不应该(显式),所以在这种情况下,只有实际拥有的低音数据。