我们知道如何通过单词移动器的距离来评估两个完整文本的相似性。如何在一个文本中找到与另一文本相似的片断?
答案 0 :(得分:1)
您可以将文本分成多个部分-理想地通过自然分组(例如句子或段落)进行划分,然后使用某种文本距离度量对每个块进行成对比较。
移词器的距离可以给出令人印象深刻的结果,但是计算起来相当缓慢/昂贵,尤其是对于大文本和大量成对比较而言。其他更简单的文本摘要矢量(例如,所有文本单词矢量的简单平均值,或从诸如“段落矢量”(又称Doc2Vec
)等文本中获悉的文本矢量,将更快,并且可能足够好,或者至少是快速的第一遍,以限制您执行更昂贵的操作的候选对的数量。