二进制化评级 - MovieLens数据集

时间:2015-12-14 04:08:39

标签: dataset recommendation-engine mahout-recommender collaborative-filtering

我正在根据用户的点击行为开发个性化的新闻推荐引擎。我的功能将是预定义的新闻类别 (例如政治,体育等)。

每当用户点击文章时,我会根据本文构建/更新用户个人资料,然后推荐文章池中的另一篇文章。

关于这个系统的评估,我需要一个包含二进制用户项交互的数据集(用户点击推荐文章与否) - 我找不到适合这个特定环境的数据集。我要做的是,二进制Movielens数据集,然后计算精度和召回。

我在MovieLens数据集中的实际操作如下:如果用户对某个项目的评级大于该用户的平均评级,我会为其指定二进制评级为1,否则为<。 /强>

这种方法是评估此类系统的正确方法吗?

1 个答案:

答案 0 :(得分:2)

  1. 二值化没有区别。精确度和召回是相对的,所以有人评价你需要的东西。一个好的&#34;的算法。评级对于测试目的而言毫无意义。
  2. epinions有两个数据集,一个用于评级,另一个用于信任。
  3. 使用MAP @ k表示某些建议的平均精度。这将考虑一组建议中的排名,这是不确定如何使用它们。
  4. BTW已经有一个开源的推荐人可以做到这一点,并允许混合多个事件/动作/指标,也可以使用内容相似性here。它基于PredictionIO的框架,它基于Spark。