组合pandas行,其中不同的列需要不同的操作

时间:2016-07-06 18:41:15

标签: python pandas

我正在尝试组合某些行,但不会对所有列进行常见操作。我想要pbheadid和wpadr相等的行,就像其他行组合一样。这里pickqty应该相加,其他列应该从最后一个条目或最高的pickdtm进行复制粘贴,但它是排序的,所以最后一个条目会这样做。

我可以预先搜索索引并将它们保存在字典中。并根据这些索引更改每一行/列。然而,这不是那么直接而且快速。我认为对于pandas groupby应该有可能更快。帮助将不胜感激。这是一段数据(请注意,pbheadid相似但在较大的数据集中有所改变):

getDay

这应该是结果:

pbheadid    pbcarid     artid   wpadr   pickqty pickdtm

76079450    61838504    370944  523-370p    1   00:00:47
76079450    61838110    323775  523-372p    1   00:01:05
76079450    61838225    323775  523-372p    2   00:01:13
76079450    61838504    323775  523-372p    3   00:01:30
76079450    61838497    355475  523-373p    1   00:01:45
76079450    61838504    354194  523-377p    1   00:01:55
76079450    61838110    267204  523-376p    5   00:02:26
76079450    61838225    267204  523-376p    1   00:02:33

非常感谢提前!

1 个答案:

答案 0 :(得分:1)

IIUC你可以这样做:

In [21]: (df.groupby(['pbheadid','wpadr'])
   ....:    .agg({'pickqty':'sum', 'artid':'last', 'pbcarid':'last', 'pickdtm':'last'})
   ....:    .reset_index()
   ....: )
Out[21]:
   pbheadid     wpadr   artid  pickqty   pbcarid   pickdtm
0  76079450  523-370p  370944        1  61838504  00:00:47
1  76079450  523-372p  323775        6  61838504  00:01:30
2  76079450  523-373p  355475        1  61838497  00:01:45
3  76079450  523-376p  267204        6  61838225  00:02:33
4  76079450  523-377p  354194        1  61838504  00:01:55