列pandas python Biopython中的成对比较

时间:2015-11-13 18:38:54

标签: python loops pandas biopython

我有一个大型数据集,我用pandas读入,我想通过pairwise2进行成对对齐。

import pandas as pd
from pandas import DataFrame
from Bio import pairwise2   #for pairwise alignments 
from Bio.pairwise2 import format_alignment   #for printing alignments out neatly 

但在这里我将使用模拟数据集:

data = { 'sequence': ['ACAAGAGTGGGACTATACAGTGGGTACAGTTATGACTTC', 'GCACGGGCCCTTGGCTAC', 'GCAACAAGGGGGGATACAGCGGGAACAGTGGACAAGTGGTTCGATGTC']}

data = DataFrame(data)

看起来像这样:

Out[34]: 
                                       sequence
0           ACAAGAGTGGGACTATACAGTGGGTACAGTTATGACTTC
1                                GCACGGGCCCTTGGCTAC
2  GCAACAAGGGGGGATACAGCGGGAACAGTGGACAAGTGGTTCGATGTC

我的目标是在'序列'列中进行成对对齐,因此第一行与第二行比较,然后第二行与第三行比较,第三行与第一行比较,依此类推更大的数据集。

我的代码:

for seq in data['sequence']:
   for a in pairwise2.align.globalxx(seq, seq):
      print(format_alignment(*a))   #this is just to print the alignment out neatly. 

打印出来:

ACAAGAGTGGGACTATACAGTGGGTACAGTTATGACTTC
|||||||||||||||||||||||||||||||||||||||
ACAAGAGTGGGACTATACAGTGGGTACAGTTATGACTTC
Score=39

GCACGGGCCCTTGGCTAC
||||||||||||||||||
GCACGGGCCCTTGGCTAC
Score=18

GCAACAAGGGGGGATACAGCGGGAACAGTGGACAAGTGGTTCGATGTC
||||||||||||||||||||||||||||||||||||||||||||||||
GCAACAAGGGGGGATACAGCGGGAACAGTGGACAAGTGGTTCGATGTC
Score=48

接近我想要的但它只比较第一个到第一个,第二个到第二个和第三个到第三个。

所以我试过这个:

for seq in data['sequence']: #for each 'sequence' column value
    for index, row in data.iterrows(): #for each row 
        for a in pairwise2.align.globalxx(seq, row['sequence']): #compare 'sequence' column value to each row of the 'sequence' column
            print(format_alignment(*a))

这给出了太多输出线,我甚至都不打算在这里发布。

我的想法是将'序列'值与'序列'列的行进行比较,但输出的比对比预期的要多。我认为双循环不是这里的方式。 我想我的问题甚至与Biopython没有任何关系,只是我怎样才能在一列中进行成对比较?

1 个答案:

答案 0 :(得分:1)

使用itertools中的组合生成器。

for seq0, seq1 in itertools.combinations(data['sequence'], 2):
    for a in pairwise2.align.globalxx(seq0, seq1):
        print(format_alignment(*a))