N基因组的图形表示

时间:2017-05-23 10:17:35

标签: graph graph-algorithm genome

我有n个序列,每个长度为30亿(人类基因组)。我正在寻找存储/表示这n个字符串的有效方法。我能想到的一种自然方式是图,其中节点可以在这些序列中存储公共子串,并且在我们看到变化的节点和一组路径P = P1之间存在有向边。 。 。 Pq,其中每条路径代表原始序列..

例如:

假设我们有四个字符串S1 = ATCGGCT,S2 = ATCGATT,S3 = GTCGGCT,S4 = GTCGATT。然后图表应如下

enter image description here

我面临的问题是如何找到n序列中常见的最大公共子序列,如果不是n-1序列,依此类推。任何人都可以指向我可以获得方向或伪代码的资源吗?提前谢谢。

0 个答案:

没有答案