我目前正在从事一个项目,该项目需要快速地对DNA序列进行最佳比对,并且一直在使用scikit-bio库中的StripedSmithWaterman()函数。不幸的是,我发现差距的位置很不平衡。
例如:
aln1: ...TA-GT--CTAGTCGAAAATGGGGCTG-GTA...
aln2: ...TAGG-TCCC-TGGCGAAATGGG-GCTGGAG...
这是从较大的对齐中截取的部分。如您所见,在aln2的索引5(从0开始)处,当两个碱基都可以对齐为'T'而没有该间隙时,则存在一个缺口,导致与aln1不匹配。然后在索引22处还有另一个间隙,使aln2上的“ GCTG”移位,从而使其与aln1上的“ GCTG”不对齐。
我的代码很简单:
query = StripedSmithWaterman(queryseq)
alignment = query(targetseq)
任何帮助,将不胜感激。