我是编码新手,目前正在学习python。非常感谢您的专业知识。我有一个制表符分隔的数据文件tsv.tab,它在第二列和第三列中有30,000个以逗号分隔的条目,但在第一列中只有一个条目。每个列由选项卡分隔。该文件如下所示:
57 A,C,G,C ID1,ID2,ID3,ID4
2079 G,C,A,T ID1,ID2,ID3,ID4
5270 C,T,T,G ID1,ID2,ID3,ID4
请你能建议一个python方法来读取数据,转置,合并(第3列,即ID1,..)并将数据保存为制表符或逗号分隔文件?我很乐意接受纯粹的蟒蛇,大熊猫或者笨拙的建议。输出应如下所示:
57 2079 5270 ID
A G C ID1
C C T ID2
G A T ID3
C T G ID4
或
57,2079,5270,ID
A,G,C,ID1
C,C,T,ID2
G,A,T,ID3
C,T,G,ID4
到目前为止,我已尝试使用如下的pandas。
import pandas as pd
df = pd.read_csv('tsv.tab', delimiter= '\t', header=None)
df.transpose().to_csv('tsv.csv', header = False, index=False)
答案 0 :(得分:0)
假设您将样本数据保存到名为' test.txt'的文件中,您可以这样做:
df = pd.read_csv('test.txt',header=None,sep='\s+')
result = (
df[1].str.split(',',expand=True)
.T
.pipe(lambda x: x.rename(columns=dict(zip(x.columns,df[0]))))
.assign(ID=df[2].iloc[0].split(','))
)
result
Out[119]:
57 2079 5270 ID
0 A G C ID1
1 C C T ID2
2 G A T ID3
3 C T G ID4