我有n个序列,每个长度为30亿(人类基因组)。我正在寻找存储/表示这n个字符串的有效方法。我能想到的一种自然方式是图,其中节点可以在这些序列中存储公共子串,并且在我们看到变化的节点和一组路径P = P1之间存在有向边。 。 。 Pq,其中每条路径代表原始序列..
例如:
假设我们有四个字符串S1 = ATCGGCT,S2 = ATCGATT,S3 = GTCGGCT,S4 = GTCGATT。然后图表应如下
我面临的问题是如何找到n序列中常见的最大公共子序列,如果不是n-1序列,依此类推。任何人都可以指向我可以获得方向或伪代码的资源吗?提前谢谢。