用于组装读数的重建模型的反向补充

时间:2013-05-21 03:37:22

标签: models bioinformatics sequences

组装由DNA测序产生的片段(通常称为读取)的一种方法是寻找包含给定读数组的所有读段的最短公共超弦。该问题的一个模型是重建模型,其计算可能的超弦(包含所有片段)与每个片段之间的最小编辑距离。我还不明白的是,在计算给定片段的编辑距离时,有必要计算该片段反向补码的编辑距离。
片段及其反向补语的示例可以是:

ACTGTCC片段
TGACAGG补体(我们知道的互补链)
GGACAGT反向补充

根据我正在阅读的书,它背后的意思是找到一个尽可能短的超弦,要么给定的片段或其反向补码必须是超弦的近似子串。我知道许多数学/计算模型对于他们解决生物学问题的方式没有生物学意义,但是我认为这种重建模型在生物学上是合理的,可以找到包含DNA特定区域的所有片段的字符串。序列和所有补体片段,毕竟在组装时我们可以找到两个链序列。但是反向补充不是给定序列存在的东西,除非它遇到某种断裂 - 重组事件,这是不期望的,主要是在谈论保守区域时。你知道为什么这个模型会考虑反向补充吗?提前谢谢。

0 个答案:

没有答案