使用Skbio 0.5.4中的Smith-waterman时出错

时间:2019-02-26 22:38:36

标签: skbio

我使用的是skbio(0.5.4)中的Smith-waterman的包装版本,但我有一个未指明的错误:

_,得分,_ = local_pairwise_align_ssw(protein_list [idx1],protein_list [idx2],substitution_matrix = blosum62)
  在local_pairwise_align_ssw中的文件“ /anaconda3/lib/python3.6/site-packages/skbio/alignment/_pairwise.py”,第732行
    validate = False)
  __init__
中的文件“ /anaconda3/lib/python3.6/site-packages/skbio/alignment /_tabular_msa.py”,行785     reset_index = minter为None,索引为None)
  1956行中的“ /anaconda3/lib/python3.6/site-packages/skbio/alignment /_tabular_msa.py”文件
    self._assert_valid_sequences(序列)
  _assert_valid_sequences中的文件“ /anaconda3/lib/python3.6/site-packages/skbio/alignment /_tabular_msa.py”,第2035行,
    %(长度,预期长度)
ValueError:每个序列的长度必须与MSA中的位置数匹配:232!= 231

奇怪的是,有时错误出现在蛋白质对0-10上,而其他错误在0-116之间。所以,我不认为这是蛋白质来源的错误。

1 个答案:

答案 0 :(得分:1)

我有类似的问题。但是,我能够将错误限制为优化的SSW版本。因此序列格式没有错误。

import warnings
from skbio.sequence import Protein
with warnings.catch_warnings():
    warnings.filterwarnings("ignore", message="...")
    from Bio.Align import substitution_matrices
from skbio.alignment import local_pairwise_align_ssw
from skbio.alignment import local_pairwise_align

peptide1 = Protein("CGAGDNQAGTALIF")
peptide2 = Protein("CAGEEGGGADGLTF")
gap_open_penalty = 10
gap_extend_penalty = 10
substitution_matrix = substitution_matrices.load("BLOSUM45")

## works correct
rv = local_pairwise_align_ssw(
      sequence1 = peptide1
    , sequence2 = peptide2
    , gap_open_penalty=1
    , gap_extend_penalty=1
    , substitution_matrix=substitution_matrix
)
print(rv)

## but if I swap peptide1 and peptide 2 the ValueError occur
rv = local_pairwise_align_ssw(
      sequence1 = peptide2
    , sequence2 = peptide1
    , gap_open_penalty=1
    , gap_extend_penalty=1
    , substitution_matrix=substitution_matrix
)
print(rv)

## if I do the same with local_pairwise_align it works!
rv = local_pairwise_align(
      seq1=peptide2
    , seq2=peptide1
    , gap_open_penalty=1
    , gap_extend_penalty=1
    , substitution_matrix=substitution_matrix
)
print(rv)