如何找到一个文本与另一个文本相似的部分?

时间:2019-04-10 10:09:09

标签: word2vec similarity

我们知道如何通过单词移动器的距离来评估两个完整文本的相似性。如何在一个文本中找到与另一文本相似的片断?

1 个答案:

答案 0 :(得分:1)

您可以将文本分成多个部分-理想地通过自然分组(例如句子或段落)进行划分,然后使用某种文本距离度量对每个块进行成对比较。

移词器的距离可以给出令人印象深刻的结果,但是计算起来相当缓慢/昂贵,尤其是对于大文本和大量成对比较而言。其他更简单的文本摘要矢量(例如,所有文本单词矢量的简单平均值,或从诸如“段落矢量”(又称Doc2Vec)等文本中获悉的文本矢量,将更快,并且可能足够好,或者至少是快速的第一遍,以限制您执行更昂贵的操作的候选对的数量。