如何在熊猫中通过groupby进行迭代

时间:2020-11-05 18:05:55

标签: python pandas pandas-groupby apply

我有一个minmax函数,它基本上在事务的数据帧上进行迭代。我要计算包括id在内的一组计算,因此accountstart,accountend是计算出的两个字段。目的是进行我的月份和帐户的计算。

所以当我这样做时:

 df1 = df.loc[df['accountNo']==10]
 minmax(df1) it works.

我不能做的是:

 df.groupby('accountNo').apply(minmax)

当我这样做时:

 grouped = df.groupby('accountNo')
 for i,j in grouped:
    print(minmax(j))

它执行计算,打印结果,但不打印就抱怨KeyError:-1,即itertools。好笨。

如何在熊猫中解决这个问题?

def minmax(x):
  dfminmax = {}

  accno = set(x['accountNo'])
  accno = repr(accno)
  kgroup = x.groupby('monthStart')['cumsum'].sum()
  maxt = x['startbalance'].max()
  kgroup = pd.DataFrame(kgroup)
  kgroup['startbalance'] = 0
  kgroup['startbalance'][0] = maxt
  kgroup['endbalance'] = 0
  kgroup['accountNo'] = accno
  kgroup['accountNo'] = kgroup['accountNo'].str.strip('{}.0')
  kgroup.reset_index(inplace=True)
  for idx, row in kgroup.iterrows():
        if kgroup.loc[idx,'startbalance']==0:
                kgroup.loc[idx,'startbalance']=kgroup.loc[idx-1,'endbalance'], 
        if kgroup.loc[idx,'endbalance']==0:
                kgroup.loc[idx,'endbalance'] = 
  kgroup.loc[idx,'cumsum']+kgroup.loc[idx,'startbalance']

  dfminmax['monthStart'].append(kgroup['monthStart'])
  dfminmax['startbalance'].append(kgroup['startbalance'])
  dfminmax['endbalance'].append(kgroup['endbalance'])
  dfminmax['accountNo'].append(kgroup['accountNo'])

return dfminmax

1 个答案:

答案 0 :(得分:1)

.apply()pandas Series作为输入,而不是DataFrames。与.agg中一样,使用df.groupby('accountNo').agg(yourfunction)应该会产生更好的结果。请务必查看documentation以获得有关实施的详细信息。