我正在尝试创建一个脚本,该脚本查看字符串文件列表并报告它们之间最常见的子字符串。
例如:
我想让脚本告诉我字符串之间的常见元素是什么,超过某个阈值(例如,5个字符)。
理想情况下,我会被告知
如果在我熟悉的技术中存在这样的功能 - SQL,Javascript,PHP,Ruby或Bash - 我会非常高兴...
非常感谢,
杰克
答案 0 :(得分:2)
这是一个很难解决的问题Longest common subsequence problem。
以下是使用动态编程的算法的Python实现:http://www.algorithmist.com/index.php/Longest_Common_Subsequence
我认为任何标准库(C,Java,PHP,Python,Javascript,Ruby等)都不具备这样的功能。但您可以在此处查找实现:http://www.google.com/codesearch?q=%22longest+common+subsequence%22