使用Python查找和删除文件集合中的重复文本

时间:2017-08-21 22:59:22

标签: python algorithm text

我有40-50个包含markdown的文本文件的集合。其中一些包含重复的单词,句子和段落。我正在寻找一个脚本/算法来扫描文件并帮助我识别匹配(或匹配)。我在哪里可以找到这样的东西?在线搜索这类事物会产生其他类型问题的结果,但不是这个问题。希望有任何线索可以帮助我缩小搜索范围......

1 个答案:

答案 0 :(得分:1)

基本上,一个简单的蛮力可以解决你所有的问题。但你应该考虑另一种算法取决于你的要求(时间,记忆......):Boyer-Moore,Rabin-Karp字符串搜索算法,Knuth-Morris-Pratt算法。