将文档添加到评分的TF-IDF集合中?

时间:2010-07-22 17:13:45

标签: machine-learning nlp similarity tf-idf

我有大量已经计算过TF-IDF的文档。我正准备在集合中添加更多文档,我想知道是否有办法在不重新处理整个数据库的情况下将TF-IDF分数添加到新文档中?

1 个答案:

答案 0 :(得分:4)

基本上有两种选择:

  1. 仅在您需要时计算您的tf-idf分数。现在添加新文档是微不足道的。您所要做的就是更新所有文档的数量,令牌发生的文档数量以及存储新文档的令牌出现向量。

  2. 定期重新计算你的tf-idf向量,可能是在添加了100K文件之后。在它们之间,只需使用旧值(所有文档的数量,令牌出现的文档数量)。

  3. 如果你的收藏非常庞大,你可能会想要采用第二种方法,因为新文件无论如何都不会改变词汇的全球分布。也就是说,最好测试两种方法并找到最适合您问题的方法。