我们可以在文档推荐系统中使用tf-idf和余弦相似度吗?

时间:2017-08-18 19:49:46

标签: python nlp recommendation-engine tf-idf cosine-similarity

文档数据集拥有9000个文档,并且日益增长,大多数文档平均有1-3个段落。

这个想法是在用户过去使用文档的帮助下提出建议。

让我们说数据集共有10个文件(主要语料库),其中4个与体育有关,2个与时尚有关,4个与技术有关。

现在,如果用户x已经阅读了2个体育和1个技术相关文档,那么为了获得用户x的tf-idf,我们将组合这3个文档并将其假设为用户x语料库。

现在获取10个文档(主语料库)的tf-idf,它将获得所有这10个文档的单独tf idf向量。

现在将用户x语料库的余弦相似度与主语料库(10个文档)进行比较

结果应该是用户x尚未阅读的2个体育文件和1个技术文件。

如果这个想法有意义,请告诉我。

0 个答案:

没有答案