我想合并行(按分组方式),但也要合并其列数据,在我的情况下,这些列数据由一个列表组成。
例如,我的数据如下:
Col1 Col2
a [1,2,3]
a [3,4,5]
b [1,2,3,4,20]
b [3,80,4,5]
结果数据框将是:
Col1 Col2
a [1,2,3,4,5]
b [1,2,3,4,20,80,5]
答案 0 :(得分:0)
您可以使用groupby
df = pd.DataFrame({'col1': ['a','a','b','b'], 'col2': [[1,2,3], [3,4,5],[1,2,3,4,20], [3,80,4,5]]})
print(df.groupby('col1').sum())
输出:
col2
col1
a [1, 2, 3, 3, 4, 5]
b [1, 2, 3, 4, 20, 3, 80, 4, 5]
如果只需要考虑重复值一次,则可以通过以下两种方式进行:
1)使用Set()
print(df.groupby('col1').sum()['col2'].apply(lambda x: list(set(x))).reset_index())
输出:
col1 col2
0 a [1, 2, 3, 4, 5]
1 b [1, 2, 3, 4, 5, 80, 20]
2)通过使用dict.fromkeys():这将有助于保持列表中元素的顺序:
print(df.groupby('col1').sum()['col2'].apply(lambda x: list(dict.fromkeys(x))).reset_index())
输出:
col1 col2
0 a [1, 2, 3, 4, 5]
1 b [1, 2, 3, 4, 20, 80, 5]