Pandas数据帧groupby并组合多个行值

时间:2015-09-21 02:59:10

标签: python pandas

如果标题不清楚,我道歉,但我很难说出这个问题。如果我只展示我想做的事情,那可能是最好的。

某些上下文:我为文档解析了名称,并将每个名称与显示的页码一起存储。我需要转换DataFrame,以便每个名称都有一行,页码列结合了名称出现的所有页面。我认为这需要GroupBy,但我并不完全确定。

我目前的数据:

data = np.array([['John', 'Smith', 1], ['John', 'Smith', 7], ['Eric', 'Adams', 9], ['Jane', 'Doe', 14], ['Jane', 'Doe', 16], ['John', 'Smith', 19]])

pd.DataFrame(data, columns=['FIRST_NM', 'LAST_NM', 'PAGE_NUM'])

  FIRST_NM LAST_NM PAGE_NUM
0     John   Smith        1
1     John   Smith        7
2     Eric   Adams        9
3     Jane     Doe       14
4     Jane     Doe       16
5     John   Smith       19

所需数据框:

  FIRST_NM LAST_NM PAGE_NUM
0     John   Smith   1,7,19
1     Eric   Adams        9
2     Jane     Doe    14,16

1 个答案:

答案 0 :(得分:4)

您可以使用groupby执行此操作并应用:

df.groupby(['FIRST_NM', 'LAST_NM']).apply(lambda group: ','.join(group['PAGE_NUM']))
Out[23]: 
FIRST_NM  LAST_NM
Eric      Adams           9
Jane      Doe         14,16
John      Smith      1,7,19
dtype: object