使用Python Pandas按列转置和合并制表符分隔文件

时间:2018-01-31 05:48:03

标签: python pandas numpy transpose array-merge

我是编码新手,目前正在学习python。非常感谢您的专业知识。我有一个制表符分隔的数据文件tsv.tab,它在第二列和第三列中有30,000个以逗号分隔的条目,但在第一列中只有一个条目。每个列由选项卡分隔。该文件如下所示:

57      A,C,G,C ID1,ID2,ID3,ID4  
2079    G,C,A,T ID1,ID2,ID3,ID4     
5270    C,T,T,G ID1,ID2,ID3,ID4

请你能建议一个python方法来读取数据,转置,合并(第3列,即ID1,..)并将数据保存为制表符或逗号分隔文件?我很乐意接受纯粹的蟒蛇,大熊猫或者笨拙的建议。输出应如下所示:

57  2079   5270 ID   
A   G      C    ID1  
C   C      T    ID2  
G   A      T    ID3  
C   T      G    ID4  

57,2079,5270,ID 
A,G,C,ID1  
C,C,T,ID2  
G,A,T,ID3  
C,T,G,ID4  

到目前为止,我已尝试使用如下的pandas。

import pandas as pd  
df = pd.read_csv('tsv.tab', delimiter= '\t', header=None)
df.transpose().to_csv('tsv.csv', header = False, index=False)  

1 个答案:

答案 0 :(得分:0)

假设您将样本数据保存到名为' test.txt'的文件中,您可以这样做:

df = pd.read_csv('test.txt',header=None,sep='\s+')

result = (
    df[1].str.split(',',expand=True)
    .T
    .pipe(lambda x: x.rename(columns=dict(zip(x.columns,df[0]))))
    .assign(ID=df[2].iloc[0].split(','))
    )

result
Out[119]: 
  57 2079 5270   ID
0  A    G    C  ID1
1  C    C    T  ID2
2  G    A    T  ID3
3  C    T    G  ID4