Spark ML ALS协同过滤输入数据集要求

时间:2016-12-21 12:34:20

标签: apache-spark apache-spark-mllib

当使用spark的ml ALS进行协同过滤时,我应该仅使用现有的评级,还是为不存在的评级生成完整的因子分解矩阵填充0?

即。

           prod1    prod2    prod3
user1        .5       x      .3   
user2         x      .2      .2   
user3        .1       x       x    

对于上面的例子,输入评级应该是现有的一个或整个矩阵

1 个答案:

答案 0 :(得分:0)

隐含反馈

没有理由添加人为评级,因为它不会带来任何额外信息。

明确的反馈

你不应该添加人工评级,因为0分不是中立的,它会影响结果。