重复有序序列搜索算法

时间:2015-06-23 16:31:17

标签: algorithm sequence data-mining dynamic-programming bioinformatics

我有大量有序的符号序列,数百万个符号。 我必须找到重复的有序子序列,以便:

  1. 搜索子序列未知,我必须找到在大序列的其他地方重复的子序列。
  2. 子序列可能存在差异,例如存在一定量的噪音和缺少某些符号。
  3. 没有必要条件:

    1. 子序列可能具有少量邻居符号的排列。
    2. 字母表由数千个符号组成。

      你能为这样的任务推荐众所周知且经过充分研究的算法吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试aho-corasick多模式匹配并使用通配符搜索子字符串。对于后续序列,您还需要levenstein距离。您可以在https://phpahocorasick.codeplex.com处使用通配符在PHP的aho-corasick算法中尝试我的实现。