使用Python pandas通过公共密钥合并许多tsv文件

时间:2014-03-25 02:34:36

标签: python merge pandas tsv

我有几百个带有两个字段的tsv文件,一个公共密钥和一个唯一的样本ID:

==> test1.vmat <==
CHROM:POS:REF:ALT  144-93-02
1:14653:C:T  1
1:14677:G:A  1
1:14907:A:G  1

==> test2.vmat <==
CHROM:POS:REF:ALT  144-93-01
1:14653:C:T  1
1:14522:G:A  1
1:14907:A:G  1

我想使用字段“CHR:POS:REF:ALT”对所有文件执行外连接,以形成一个巨大的矩阵。两个文件的示例:

CHROM:POS:REF:ALT  144-93-02    144-93-01
1:14653:C:T  1.0 1.0
1:14522:G:A  NA 1.0
1:14677:G:A  1.0 NA
1:14907:A:G  1.0 1.0

我使用以下代码得到了上面的输出,但是我无法循环遍历目录中的数百个* tsv文件(path / to / testN.vmat)。如何将其修改为将目录中的所有单个* tsv文件合并到单个tsv文件中的内容?

variant_field = "CHROM:POS:REF:ALT"
outfile = "everyone.vmat"

df1 = pandas.read_csv("path/to/test1.vmat", sep='\t', parse_dates=False)
df2 = pandas.read_csv("path/to/test2.vmat", sep='\t', parse_dates=False)

df3 = pandas.merge(df1,df2,on=variant_field, how='outer')
df3.to_csv(str(outfile), sep="\t", header=True, index=False, na_rep="NA", engine='python')

1 个答案:

答案 0 :(得分:1)

如果你制作了“CHROM:POS:REF:ALT&#39;您加入多个框架的索引

df1 = pandas.read_csv("path/to/test1.vmat", sep='\t', parse_dates=False,
                                            index_col='CHROM:POS:REF:ALT')


In [11]: df1.join([df2], how='outer')
Out[11]: 
             144-93-02  144-93-01
1:14522:G:A        NaN          1
1:14653:C:T          1          1
1:14677:G:A          1        NaN
1:14907:A:G          1          1

在某种程度上,将此视为连续而不是连接更为诚实:

In [12]: pd.concat([df1, df2], axis=1)
Out[12]: 
             144-93-02  144-93-01
1:14522:G:A        NaN          1
1:14653:C:T          1          1
1:14677:G:A          1        NaN
1:14907:A:G          1          1

您可以使用glob迭代所有文件:

from glob import iglob
pd.concat((pd.read_csv(f, ...) for f in glob.iglob(*.vmat)), axis=1)