评级列的基数是否会影响基于矩阵分解的协作过滤的性能?

时间:2019-03-05 08:49:31

标签: apache-spark-mllib recommendation-engine collaborative-filtering recommender-systems

我正在基于mllib's implicit preference使用基于Netflix Prize winning algorithm协作过滤的实现方式来在电子商务中生成杂货产品推荐。我尝试了两种变体(不同的评分方式)-

  1. 评级=否。用户购买商品的次数
  2. 评分=(2x(用户购买某商品的次数)+用户查看某商品的次数)/ 3 (即购买和查看的标准之间的权重为2:1)

性能(MAP,调用和精度)从1降低到2,这与矩阵密度的增加是不合常理的,并且期望2nd性能更好。一种观察是,在第二种方法中,评级列中的基数(离散值)增加了,因此,我想了解一下这是否会导致性能下降?

0 个答案:

没有答案