文档数据集拥有9000个文档,并且日益增长,大多数文档平均有1-3个段落。
这个想法是在用户过去使用文档的帮助下提出建议。
让我们说数据集共有10个文件(主要语料库),其中4个与体育有关,2个与时尚有关,4个与技术有关。
现在,如果用户x已经阅读了2个体育和1个技术相关文档,那么为了获得用户x的tf-idf,我们将组合这3个文档并将其假设为用户x语料库。
现在获取10个文档(主语料库)的tf-idf,它将获得所有这10个文档的单独tf idf向量。
现在将用户x语料库的余弦相似度与主语料库(10个文档)进行比较
结果应该是用户x尚未阅读的2个体育文件和1个技术文件。
如果这个想法有意义,请告诉我。