增量文档相似度算法

时间:2013-08-06 20:01:26

标签: algorithm bigdata computer-science

我正在尝试计算一组大型动态文本文档之间的相似性。对于静态集,余弦相似性+ tf-idf之类的东西会很好用。但是,我正在寻找一个允许我添加新文档而不重新计算整个相似性集的方案。有没有这样的算法?

1 个答案:

答案 0 :(得分:1)

您似乎接近解决方案。只需存储f(文档)结果的每个实例,并合并结果。

映射每个文档的单词频率并存储它:

d0:
    "the" : 70,
    "quick" : 22,
    "fox" : 1

d1:
    "the" : 42,
    "lazy" : 2,
    "dog" : 13

合并文档并对汇总进行评估:

d0_d1:
    "the" : 112.
    "lazy" : 2,
    "dog" : 13,
    "quick" : 22,
    "fox" : 1

tf_idf(d0_d1)