我有一个多序列比对(Clustal)文件,我想读取这个文件并按顺序排列顺序,使它看起来更加清晰和精确。
我是使用AlignIO
对象从Biopython中执行此操作的:
alignment = AlignIO.read("opuntia.aln", "clustal")
print "Number of rows: %i" % len(align)
for record in alignment:
print "%s - %s" % (record.id, record.seq)
My output看起来很乱,长时间滚动。我想要做的是在每行中只打印50个序列并继续直到对齐文件的末尾。
答案 0 :(得分:0)
你是否需要更复杂的东西而不是简单地将record.seq
分成50个字符的块,或者我错过了什么?
您可以使用Python序列切片来轻松实现这一目标。 seq[N:N+50]
访问以N开头的50个序列元素:
In [24]: seq = ''.join(str(random.randint(1, 4)) for i in range(200))
In [25]: seq
Out[25]: '13313211211434211213343311221443122234343421132111223234141322124442112343143112411321431412322123214232414331224144142222323421121312441313314342434231131212124312344112144434314122312143242221323123'
In [26]: for n in range(0, len(seq), 50):
....: print seq[n:n+50]
....:
....:
13313211211434211213343311221443122234343421132111
22323414132212444211234314311241132143141232212321
42324143312241441422223234211213124413133143424342
31131212124312344112144434314122312143242221323123
答案 1 :(得分:0)
BR,
我没有在这台计算机上使用biopython,因此没有经过测试,但它应该有效:
chunk_size = 50
for i in range(0, alignment.get_alignment_length(), chunk_size):
print ""
for record in alignment:
print "%s\t%s %i" % (record.name, record.seq[i:i + chunk_size], i + chunk_size)
与Eli的相同技巧 - 使用范围来设置切片的索引,然后迭代每个切片的对齐中的记录。