循环遍历以获取每个不同日期变量(非聚合)的数据框变量的总和

时间:2019-05-01 18:06:42

标签: python pandas dataframe

我正在尝试编写一个简单的代码,其中在数据帧“ Yield”和“ Date”中生产单元,并在这些数据帧中生产它们。同一日期存在多个记录。我将使用numpy cumsum函数获取每一行的运行总计,然后减去当前行的值。我不希望对该日期进行汇总,因为我需要保留原始原始记录。

我可以通过为每个日期设置.loc变量来对一组日期执行此操作,然后应用该函数。但是无法弄清楚该如何迭代。

data_43102 = data['Yield_Done','PDate'].loc[data['PDate'] ==43102]
#gives me Yield Done for only 43102

data_43102['Running_total']=  cumsum(data_43102['Yield_Done']) #gives me cumulative total 

data_43102['Running_total'] = data_43102['Running_total'] - data_43102['Yield_Done']

为什么我希望在运行代码后像我曾经拥有的情况下那样会输出

1 个答案:

答案 0 :(得分:0)

您可以将所有日期存储在列表中,然后使用isin来过滤所有日期的数据:

dates = ['43102', '23102', '43102'...]

data_filtered_by_date = data['Yield_Done','PDate'].loc[data['PDate'].isin(dates)]

我希望这会有所帮助。