Question

例如......我有两个脚本可供查看（多序列对齐）MSA 是否有超过50列，间隙少于50％。

第一次使用 BioPython 在16281个序列的MSA中使用 4.2秒，其中包含609列（以fasta格式的Pfam的PF00085）。 [Biopython的多序列对齐对象的getitem方法耗费大量时间]

第二个使用简单的IO生成带有MSA的 2D Numpy Array ，在同一个Alignment中只需 1.2秒。

我认为对MSA对象的Numpy方法可以更有用，更快。例如，您可以使用布尔numpy数组来选择特定的行和列。实际上删除和选择列（例如用于消除具有更多50％间隙的列）是非常耗时的并且在Biopython中没有很好地实现。我认为这对于PDB坐标的nx3 numpy数组也很有用。

我有五个想法，也许只有一两个有用：

1 - 基于numpy而不是str创建Seq和Multiple Sequence Alignment对象（ Bio.Align.MultipleSeqAlignment ）。这可能是兼容性问题......也许这不是一个好主意。我不知道。

2 - 在Biopython中创建一个更快的方法，从Biopython对象中获取numpy数组版本。我尝试为多序列对齐对象生成numpy数组，但这会对 getitem方法进行多次调用，并且比单独使用Biopython更耗时。但是，也许拥有更多编程技能的人可以做得更好。

3 - 创建一个numpy或scipy模块，IO支持Alignments和PDB。也许更简单有用的想法。

4 - 创建另一个完整的Bio模块，但基于numpy。也许在scipy或numpy里面。

5 - 与想法2和3一样，创建模块和方法，以便在Biopython和numpy对象之间实现更快更有效的兼容性。

您怎么看？有什么想法更好？你有更好的主意吗？可以做点什么吗？我想与Biopython项目合作......我认为与numpy的整合可以是一个良好的开端。

非常感谢;）

P.D。：我的两个剧本...... 慢，基于Biopython：

#!/usr/bin/python2.7

from sys import argv
from Bio import AlignIO
aln = AlignIO.read(open(argv[1],"r"), "fasta")
longitud = aln.get_alignment_length()
if longitud > 150:
    corte = 0.5 * len(aln)
    j = 0
    i = 0
    while j<50 and i<longitud:    
        if aln[:,i].count("-") < corte:
            j += 1
        i += 1
    if j>=50:
        print argv[1]

最快的基于numpy数组：

#!/usr/bin/python2.7

from sys import argv
import numpy as np

with open(argv[1],'r') as archivo:
    secuencias=[]
    identificadores=[]
    temp=[]
    for linea in archivo:
        if linea[0]=='>':
            identificadores.append(linea[1:].replace('\n',''))
            secuencias.append(list(temp))
            temp=""
        else:
            temp += linea.replace('\n','')
    secuencias.append(list(temp))

sec = np.array(secuencias[1:])
ide = np.array(identificadores)

if len(ide)>150:
    corte = len(ide) * 0.5
    if np.sum(np.sum(sec=='-',1) < corte) >= 50:
        print argv[1]

Answer 1

如果您要对MSA对象进行大量操作，将它们视为字符数组，那么我只需使用Biopython的AlignIO加载对齐，然后将其转换为NumPy字符数组。例如：

import numpy as nump
from Bio import AlignIO
filename = "opuntia.aln"
format = "clustal"
alignment = AlignIO.read(filename, format)
align_array = numpy.array([list(rec) for rec in alignment], numpy.character)

这个快速示例可以很容易地作为to_array方法添加到对齐对象中，或者包含在教程中。这有帮助吗？

当然，您仍然需要支付所有对象创建的开销（Seq对象，SeqRecord对象，空注释字典，对齐对象等），但这是AlignIO接口的缺点 - 它适用于相对繁重的对象模型。对于像FASTA和Clustal这样的简单格式，这并不是真正需要的，但对于斯德哥尔摩等丰富的对齐格式更有用。

Numpy和Biopython必须整合？

我有五个想法，也许只有一两个有用：

1 个答案: