我有一个带有四列的制表符分隔文件。我需要为'col1'和'col2'中的每个唯一值对组合'col3'和'col4'。示例和输出显示如下。
我想到的一种方法是使用嵌套循环:外循环按顺序读取行,内循环从开头读取所有行并查找映射。然而,这个过程似乎是计算密集型的。
是否有另一种方法可以做到这一点。
col1 col2 col3 col4
a c 1,2 physical
a c 2,3 genetic
b c 22 physical
b d 33,44 genetic
c e 1,2 genetic
c e 2 physical
c f 33,44 physical
c f 3 genetic
a a 4 genetic
e c 1,2 xxxxx
col1 col2 col3 col4
a c 1,2,3 genetic,physical
a a 4 genetic
b c 22 physical
b d 33,44 genetic
c e 1,2 genetic,physical,xxxxx
c f 3,33,44 genetic,physical
如果'col1'和'col2'在上面的最后一行中切换,值为'xxxxx'
,它会合并这些值答案 0 :(得分:3)
我会创建一个键字典,它是保存column1和column2数据的元组。这些值将是一个包含column3和column4数据的列表......
from collections import defaultdict
with open('test.dat') as f:
data = defaultdict( lambda:([],[]))
header = f.readline()
for line in f:
col1,col2,col3,col4 = line.split()
col3_data,col4_data = data[(col1,col2)] #data[frozenset((col1,col2))] if order doesn't matter
col3_data.append(col3)
col4_data.append(col4)
现在对输出进行排序和编写(使用','
加入column3和column4列表,使set
和sorted
成为唯一,以便正确订购)
with open('outfile.dat','w') as f:
f.write(header)
#If you used a frozenset in the first part, you might want to do something like:
#for k in sorted(map(sorted,data.keys())):
for k in sorted(data.keys()):
col1,col2 = k
col3_data,col4_data = data[k]
col3_data = ','.join(col3_data) #join the list
col3_data = set(int(x) for x in col3_data.split(',')) #make unique integers
col3_str = ','.join(map(str,sorted(col3_data))) #sort, convert to strings and join with ','
col4_data = ','.join(col4_data) #join the list
col4_data = sorted(set(col4_data.split(','))) #make unique and sort
f.write('{0}\t{1}\t{2}\t{3}\n'.format(col1,col2,col3_str,','.join(col4_data)))
答案 1 :(得分:2)
@mgilson提供了一个很好的无需额外部件的解决方案(+1)。我看到pandas
也被标记了,所以为了完整性,我会给出pandas
等价物:
import pandas as pd
df = pd.read_csv("merge.csv",delimiter=r"\s*")
key_cols = ["col1", "col2"]
df[key_cols] = df[key_cols].apply(sorted, axis=1)
def join_strings(seq, key):
vals = [term for entry in seq for term in entry.split(',')]
return ','.join(sorted(set(vals), key=key))
new_df = df.groupby(key_cols).agg({"col3": lambda x: join_strings(x, int),
"col4": lambda x: join_strings(x, str)})
new_df.to_csv("postmerged.csv")
产生
In [173]: !cat postmerged.csv
col1,col2,col3,col4
a,a,4,genetic
a,c,"1,2,3","genetic,physical"
b,c,22,physical
b,d,"33,44",genetic
c,e,"1,2","genetic,physical,xxxxx"
c,f,"3,33,44","genetic,physical"
所有这一切都是(1)对前两列进行排序,以便e c
成为c e
,(2)按col
和col 2
对术语进行分组,然后汇总(agg
)col3
和col4
,以逗号方式加入已整理的排名条款集。
groupby
非常方便。可能存在潜伏在某处的join_strings
函数的内置替换,但我不确定。