两个语料库的{T-Idf'计算

时间:2017-01-15 20:44:24

标签: java tf-idf cosine-similarity inverted-index

我有两个语料库(语料库1和语料库2),语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf-Idf方法来测量语料库1中的文档与语料库2中的文档之间的相似性。

已建立语料库2中术语的倒排索引,如下所示: Corpus 2 Index

很快,对于每两句话的比较,我已经构建了两个Tf-Idf向量,然后我使用余弦相似度来测量相似度。

我的问题是,在与语料库1的句子相关的向量的构建过程中,我使用Corpus 2索引通过与X术语相关的总结文档来获得Idf,这是正确的方法吗?因为Corpus 1中的某些术语在Corpus 2中不可用,而Tf-idf函数将为这些术语返回0!或者我必须为语料库1建立另一个索引(在我看来这将消除Tf-idf权力)。

1 个答案:

答案 0 :(得分:0)

我们必须索引目标语料库,我们需要完成我们的工作,例如: 如果我们有2个语料库,原始的和抄袭的。 我们必须索引原始索引,因为我们需要搜索。