获得共识序列的逻辑

时间:2013-10-24 12:03:53

标签: bioinformatics consensus

我有一组fasta格式的对齐序列。我想在协调中达成共识。在大多数站点的情况下,其中一个基站显示出最大值。如果两个或多个碱基出现次数相同的位点,应采用哪个碱基。下面给出一个例子:

>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-

根据惯例,这将是共识

Site      : 1 2 3 4 5     6
Consensus : A T G C [G/C] N

但是,当与其他序列比对时,共有序列的这个输出将引发错误。那么在这种情况下应该做些什么以及如何就这些网站达成共识呢?

2 个答案:

答案 0 :(得分:0)

你也可以在Biostars问这个问题。

然而,这些是我的建议。

1)存在几个包来计算共有序列。使用已知的包装可能是值得的 2)如果要创建自己的算法,请查看IUPAC核苷酸代码(例如here)。根据惯例,G / C将由“S”表示

答案 1 :(得分:0)

大多数共识呼叫者都会考虑质量,不仅要找到最常见的基数,还要找到信心最高的基数。

例如,在旧的桑格时代,执行此操作的算法是丘吉尔 - 沃特曼共识调用算法。还有修改版本以满足您的需求(例如,没有调用含糊不清的版本)