是否有任何工具或实用程序或perl / python脚本可以在大型文本文件中找到最长的重复子字符串并打印这些模式以及每个模式出现的次数?
答案 0 :(得分:2)
http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:
最长的重复子字符串问题是找到至少出现两次的字符串的最长子字符串。通过为字符串构建后缀树,并在树中找到最深的内部节点,可以在线性时间和空间中解决此问题
python中的后缀树(虽然有点过时了):http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/
Javascript实施并进一步解释:http://www.allisons.org/ll/AlgDS/Tree/Suffix/