如何在一组文档中找到相同(或非常相似)文本的块

时间:2017-04-26 00:47:07

标签: algorithm

我有各种文本文档(许多来自OCR)。这些文件中的许多都有中/大部分完全相同,我想在对它们进行分析之前将其排除。

我没有太多运气就做了很多搜索。有些东西使用HTML文档的DOM结构的规则性,但我不使用HTML。是否有我可以使用的算法或我可以阅读的论文,以找出如何在不同的文档中找到相同文本的块?

0 个答案:

没有答案