熊猫-合并包含列表的行

时间:2019-02-10 11:30:30

标签: pandas dataframe merge group-by

我想合并行(按分组方式),但也要合并其列数据,在我的情况下,这些列数据由一个列表组成。

例如,我的数据如下:

Col1 Col2
a    [1,2,3]
a    [3,4,5]
b    [1,2,3,4,20]
b    [3,80,4,5]

结果数据框将是:

Col1 Col2
a    [1,2,3,4,5]
b    [1,2,3,4,20,80,5]

1 个答案:

答案 0 :(得分:0)

您可以使用groupby

df = pd.DataFrame({'col1': ['a','a','b','b'], 'col2': [[1,2,3], [3,4,5],[1,2,3,4,20], [3,80,4,5]]})
print(df.groupby('col1').sum())

输出:

                               col2
col1                               
a                [1, 2, 3, 3, 4, 5]
b     [1, 2, 3, 4, 20, 3, 80, 4, 5]

如果只需要考虑重复值一次,则可以通过以下两种方式进行:
1)使用Set()

print(df.groupby('col1').sum()['col2'].apply(lambda x: list(set(x))).reset_index())

输出:

  col1                     col2
0    a          [1, 2, 3, 4, 5]
1    b  [1, 2, 3, 4, 5, 80, 20]

2)通过使用dict.fromkeys():这将有助于保持列表中元素的顺序:

print(df.groupby('col1').sum()['col2'].apply(lambda x: list(dict.fromkeys(x))).reset_index())

输出:

  col1                     col2
0    a          [1, 2, 3, 4, 5]
1    b  [1, 2, 3, 4, 20, 80, 5]