如何分组并在熊猫中合并

时间:2018-12-10 06:56:07

标签: python pandas

我在熊猫中有以下数据框

  Date          Time   Tank       Sales       Quantity        Delivery
  2018-01-01    06:30  1          100         3444            0      
  2018-01-01    07:00  1          200         3144            0
  2018-01-01    05:30  1          100         2900            0      
  2018-01-01    07:30  1          200         2800            0
  2018-01-01    06:30  2          50          3000            0      
  2018-01-01    07:00  2          100         2950            0
  2018-01-01    05:30  2          150         2800            0      
  2018-01-01    07:30  2          100         2704            0
  2018-01-02    06:30  1          100         3444            0      
  2018-01-02    07:00  1          200         3144            0
  2018-01-02    05:30  1          100         2900            50      
  2018-01-02    07:30  1          200         2800            0
  2018-01-02    06:30  2          50          3000            0      
  2018-01-02    07:00  2          100         2950            0
  2018-01-02    05:30  2          150         2800            50     
  2018-01-02    07:30  2          100         2704            0

我想在某一天和某个储罐级别进行汇总,以获取该天的“第一数量”和“最后数量”(按升序排列时间)以及“销售”和“交付”的总和。我想要的数据框是

  Date          Tank    Open    Close   Sales    Delivery
  2018-01-01    1       2900    2800    600      0         
  2018-01-01    2       2800    2704    400      0          
  2018-01-02    1       2900    2800    600      50     
  2018-01-02    2       2800    2704    500      50

目前我正在熊猫里做

这是为了获得升序的第一个和最后一个数量天和水箱高度的安排时间。

  data_open_close_inv = data.sort_values(['Date','Tank','Time']).groupby(['Date','Tank'])['Quantity'].agg(['first','last']).reset_index()

然后我将其汇总为销售和交付总额

data_agg = data.groupby(['Date','Tank'], as_index = False).agg({'Sales':['sum'],'Delivery':['sum']}).reset_index()

,然后再次结合两者。

我可以一步一步做大熊猫吗?

1 个答案:

答案 0 :(得分:2)

您可以传递一个带有标量函数名称的字典,也可以列出它,但是必须将MultiIndex和rename列展平:

data_open_close_inv = (data.sort_values(['Date','Tank','Time'])
                           .groupby(['Date','Tank'])
                           .agg({'Sales':'sum','Delivery':'sum', 'Quantity':['first','last']})
                           .reset_index())

data_open_close_inv.columns = data_open_close_inv.columns.map(''.join)
d = {'Salessum':'Sales',
     'Delivery_sum':'Delivery',
     'Quantityfirst':'Open',
     'Quantitylast':'Close',
     }
data_open_close_inv = data_open_close_inv.rename(columns=d)
print (data_open_close_inv)
        Date  Tank  Sales  Deliverysum  Open  Close
0 2018-01-01     1    600            0  2900   2800
1 2018-01-01     2    400            0  2800   2704
2 2018-01-02     1    600           50  2900   2800
3 2018-01-02     2    400           50  2800   2704