我正在尝试组合某些行,但不会对所有列进行常见操作。我想要pbheadid和wpadr相等的行,就像其他行组合一样。这里pickqty应该相加,其他列应该从最后一个条目或最高的pickdtm进行复制粘贴,但它是排序的,所以最后一个条目会这样做。
我可以预先搜索索引并将它们保存在字典中。并根据这些索引更改每一行/列。然而,这不是那么直接而且快速。我认为对于pandas groupby应该有可能更快。帮助将不胜感激。这是一段数据(请注意,pbheadid相似但在较大的数据集中有所改变):
getDay
这应该是结果:
pbheadid pbcarid artid wpadr pickqty pickdtm
76079450 61838504 370944 523-370p 1 00:00:47
76079450 61838110 323775 523-372p 1 00:01:05
76079450 61838225 323775 523-372p 2 00:01:13
76079450 61838504 323775 523-372p 3 00:01:30
76079450 61838497 355475 523-373p 1 00:01:45
76079450 61838504 354194 523-377p 1 00:01:55
76079450 61838110 267204 523-376p 5 00:02:26
76079450 61838225 267204 523-376p 1 00:02:33
非常感谢提前!
答案 0 :(得分:1)
IIUC你可以这样做:
In [21]: (df.groupby(['pbheadid','wpadr'])
....: .agg({'pickqty':'sum', 'artid':'last', 'pbcarid':'last', 'pickdtm':'last'})
....: .reset_index()
....: )
Out[21]:
pbheadid wpadr artid pickqty pbcarid pickdtm
0 76079450 523-370p 370944 1 61838504 00:00:47
1 76079450 523-372p 323775 6 61838504 00:01:30
2 76079450 523-373p 355475 1 61838497 00:01:45
3 76079450 523-376p 267204 6 61838225 00:02:33
4 76079450 523-377p 354194 1 61838504 00:01:55