如何分割推荐系统极端稀疏数据集的训练/测试?

时间:2014-12-19 08:05:30

标签: machine-learning recommendation-engine svd collaborative-filtering

我在真实世界的数据集上使用CF算法(SVD)。现在我遇到了关于数据稀疏问题的问题。这意味着用户/项目评级矩阵的稀疏度约为0.01%。我将数据分成80/20的训练/测试集,我发现只有少数用户和测试集中的项目出现在训练集中,所以我可以在测试集中使用一些评级来计算RMSE。你能给我一些建议吗?

1 个答案:

答案 0 :(得分:2)

在推荐系统的情况下,人们通常会将每个用户的历史分成火车和测试。更详细:

  1. 对于每个用户,我们都会写出与之互动的项目。
  2. 最好,我们通过(增加)时间来命令它们克服"时间旅行问题" (用户可以重新访问已知的项目,因此您不想在早期数据集上进行测试。)
  3. 像往常一样,您将数据集的第一个(1-k)百分比用作火车集,其余部分用作测试集。