应用错误收集

我有两个语料库（语料库1和语料库2），语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf-Idf方法来测量语料库1中的文档与语料库2中的文档之间的相似性。

已建立语料库2中术语的倒排索引，如下所示：

很快，对于每两句话的比较，我已经构建了两个Tf-Idf向量，然后我使用余弦相似度来测量相似度。

我的问题是，在与语料库1的句子相关的向量的构建过程中，我使用Corpus 2索引通过与X术语相关的总结文档来获得Idf，这是正确的方法吗？因为Corpus 1中的某些术语在Corpus 2中不可用，而Tf-idf函数将为这些术语返回0！或者我必须为语料库1建立另一个索引（在我看来这将消除Tf-idf权力）。

两个语料库的{T-Idf'计算

1 个答案: