我有一个minmax函数,它基本上在事务的数据帧上进行迭代。我要计算包括id在内的一组计算,因此accountstart,accountend是计算出的两个字段。目的是进行我的月份和帐户的计算。
所以当我这样做时:
df1 = df.loc[df['accountNo']==10]
minmax(df1) it works.
我不能做的是:
df.groupby('accountNo').apply(minmax)
当我这样做时:
grouped = df.groupby('accountNo')
for i,j in grouped:
print(minmax(j))
它执行计算,打印结果,但不打印就抱怨KeyError:-1,即itertools。好笨。
如何在熊猫中解决这个问题?
def minmax(x):
dfminmax = {}
accno = set(x['accountNo'])
accno = repr(accno)
kgroup = x.groupby('monthStart')['cumsum'].sum()
maxt = x['startbalance'].max()
kgroup = pd.DataFrame(kgroup)
kgroup['startbalance'] = 0
kgroup['startbalance'][0] = maxt
kgroup['endbalance'] = 0
kgroup['accountNo'] = accno
kgroup['accountNo'] = kgroup['accountNo'].str.strip('{}.0')
kgroup.reset_index(inplace=True)
for idx, row in kgroup.iterrows():
if kgroup.loc[idx,'startbalance']==0:
kgroup.loc[idx,'startbalance']=kgroup.loc[idx-1,'endbalance'],
if kgroup.loc[idx,'endbalance']==0:
kgroup.loc[idx,'endbalance'] =
kgroup.loc[idx,'cumsum']+kgroup.loc[idx,'startbalance']
dfminmax['monthStart'].append(kgroup['monthStart'])
dfminmax['startbalance'].append(kgroup['startbalance'])
dfminmax['endbalance'].append(kgroup['endbalance'])
dfminmax['accountNo'].append(kgroup['accountNo'])
return dfminmax
答案 0 :(得分:1)
.apply()
以pandas
Series
作为输入,而不是DataFrames
。与.agg
中一样,使用df.groupby('accountNo').agg(yourfunction)
应该会产生更好的结果。请务必查看documentation以获得有关实施的详细信息。