寻找关于我面前的问题的一些建议。
我有一组用户观看的电影数据集。对于一些用户,我们知道他们观看了这部电影,以及他们对该电影的评价。对于其他许多人,我们知道他们看过这部电影,但不知道他们对这部电影的评价。
我希望找到一种方法,根据具有电影评级的较大数据集,将预测或内插评级应用于他们观看的用户电影。我试图找出围绕这个问题的最佳行动方案。我有150万用户和20K电影;但是,只有约10%的电影被大约85%的用户评价。
因此,我的方法是查看余弦相似度并根据邻居插入评级;如果最近的邻居没有特定电影的值,请转到最近的电影,直到所有电影都有评级。另一种方法是寻找NNMF以应用评级,并具有2 *特征 - 电影的一个二进制表示,另一个评级。所以,当我期待"预测"对于用户,我输入他们的二进制电影值,它将返回他们的评级。
我的问题是:NNMF方法是否有意义?我从未以这种方式使用过NNMF。此外,你认为还有其他任何模型吗?我想知道它们是否更像是一种可以使用的预测算法,而不是插值。