获取文档相对于整个存储库(C#)的差异匹配百分比

时间:2018-12-12 16:50:55

标签: c# algorithm diff

我有一个文档存储库,例如txt格式。

当我向存储库添加新文档时,我想检查存储库中是否有与我要插入的文档匹配的现有文档。

如果匹配项高于X%(90%?),我可以询问用户是否要继续或更新现有文档。 有多种方法可以获取差异百分比,例如:in this question

但是我需要将新文档与存储库中的所有文档进行比较。

有人知道如何快速检查整个存储库,以使用户不必等待吗?

谢谢

1 个答案:

答案 0 :(得分:0)

如果使用句子到向量技术(在快速文本中使用skipgram或COBW)对文档进行向量化,则可以在快速文本中使用HNSw索引对向量进行索引,以非常快速地找到与存储库中的查询文档相似的文档。