标签: algorithm
我有各种文本文档(许多来自OCR)。这些文件中的许多都有中/大部分完全相同,我想在对它们进行分析之前将其排除。
我没有太多运气就做了很多搜索。有些东西使用HTML文档的DOM结构的规则性,但我不使用HTML。是否有我可以使用的算法或我可以阅读的论文,以找出如何在不同的文档中找到相同文本的块?