标签: algorithm sequence data-mining dynamic-programming bioinformatics
我有大量有序的符号序列,数百万个符号。 我必须找到重复的有序子序列,以便:
没有必要条件:
字母表由数千个符号组成。
你能为这样的任务推荐众所周知且经过充分研究的算法吗?
答案 0 :(得分:0)
您可以尝试aho-corasick多模式匹配并使用通配符搜索子字符串。对于后续序列,您还需要levenstein距离。您可以在https://phpahocorasick.codeplex.com处使用通配符在PHP的aho-corasick算法中尝试我的实现。