我有一个文档存储库,例如txt格式。
当我向存储库添加新文档时,我想检查存储库中是否有与我要插入的文档匹配的现有文档。
如果匹配项高于X%(90%?),我可以询问用户是否要继续或更新现有文档。 有多种方法可以获取差异百分比,例如:in this question
但是我需要将新文档与存储库中的所有文档进行比较。
有人知道如何快速检查整个存储库,以使用户不必等待吗?
谢谢
答案 0 :(得分:0)
如果使用句子到向量技术(在快速文本中使用skipgram或COBW)对文档进行向量化,则可以在快速文本中使用HNSw索引对向量进行索引,以非常快速地找到与存储库中的查询文档相似的文档。