使用elasticsearch检测重复或类似的PDF

时间:2014-07-11 17:50:57

标签: pdf elasticsearch duplicates similarity

我试图找到一种好的方法来确定我是否在系统中有重复/高度相似的PDF,如果它们不完全相同(即校验和不同,因为pdf中的页面是被重新安排,删除或与其他页面合并。)

一个简单的例子就是:

原始PDF包含页面(A,B,C,D)

新PDF输入系统包含页面(D,B,C,A,E,F)或(D,G,H,I,B)或其他一些内容,其中某些内容位于原始位置的其他位置PDF。

有关确定匹配/相似度阈值的可靠方法的建议吗?例如识别新PDF与原始PDF的80%相似。

我们在我们的系统中使用弹性搜索进行搜索,但我还没有找到一种很好的方法来查询或使用得分来提出一个有用的百分比/数字作为成功阈值。

任何想法/想法/建议都会非常感激。

0 个答案:

没有答案