应用错误收集

如何在一组文档中找到相同（或非常相似）文本的块

时间：2017-04-26 00:47:07

标签： algorithm

我有各种文本文档（许多来自OCR）。这些文件中的许多都有中/大部分完全相同，我想在对它们进行分析之前将其排除。

我没有太多运气就做了很多搜索。有些东西使用HTML文档的DOM结构的规则性，但我不使用HTML。是否有我可以使用的算法或我可以阅读的论文，以找出如何在不同的文档中找到相同文本的块？

0 个答案:

没有答案