我在数据框中有四列,如下所示:
A B C D
75472 d1 x -36.0 0.0
75555 d2 x -38.0 0.0
75638 d3 x -18.0 0.0
75721 d4 x -18.0 1836.0
75804 d5 x 1151.0 0.0
75887 d6 x 734.0 0.0
75970 d7 x -723.0 0.0
我想有条件地对D
求和:
因此,对于上述情况,D为[-36, -74, -92, 1836, 2987, 3721, 2998]
。
我已经可以通过for循环成功完成此操作
for i, row in me.iterrows():
try:
if row['D'] > 0:
step1 = me.loc[(me['B'] == row['B']) & (me['A'] == row['A']), 'output'].iloc[0]
me_copy.iloc[i, me_copy.columns.get_loc('output')] = step1
else:
step1 = me.loc[(me['B'] == row['B']) & (me['A'] == (row['A'] - pd.DateOffset(days=1))), 'step1'].iloc[0]
receipts_adjustments_sales = me.loc[(me['B'] == row['B']) & (me['A'] == row['A']), 'C'].iloc[0]
me_copy.iloc[i, me_copy.columns.get_loc('output')] = step1 + receipts_adjustments_sales
except:
me_copy.iloc[i, me_copy.columns.get_loc('output')] = 0
但是for循环显然是非常昂贵的,反模式的,并且基本上不会在我的整个数据帧上运行。我正在尝试在此处复制一个基本上已经写在一组数据上的excel函数,对于我的一生,我不知道该如何使用以下方法进行操作:
pd.Series.shift()
pd.Series.rolling()
一段时间以来,我一直尝试使用shift()
进行操作,但我意识到我一直不得不为每一行创建一个单独的列,这就是为什么要使用for循环的原因。
归纳为组
df.loc[:, 'A_group'] = df.groupby(['A'])[df['D'] != 0].cumsum()
df.loc[:, 'E'] = df['D'].mask(df['D'] == 0).combine_first(df['C'])
df.loc[:, 'F'] = me.groupby(['A', 'A_group'])['E'].cumsum()
感谢斯科特·波士顿的帮助!
答案 0 :(得分:5)
这是一种实现方法:
grp = (df['D'] != 0).cumsum()
df['D_new'] = df['D'].mask(df['D'] == 0).combine_first(df['C']).groupby(grp).cumsum()
df
输出:
A B C D D_new
75472 d1 x -36.0 0.0 -36.0
75555 d2 x -38.0 0.0 -74.0
75638 d3 x -18.0 0.0 -92.0
75721 d4 x -18.0 1836.0 1836.0
75804 d5 x 1151.0 0.0 2987.0
75887 d6 x 734.0 0.0 3721.0
75970 d7 x -723.0 0.0 2998.0
创建grps以帮助积累。每个组均已定义为出现在“ D”中的值,因此您在此之前停止累积,并选择D的值并继续累积,直到下一个“ D”值
grp = (df['D'] != 0).cumsum()
输出:
A B C D D_new grp
75472 d1 x -36.0 0.0 -36.0 0
75555 d2 x -38.0 0.0 -74.0 0
75638 d3 x -18.0 0.0 -92.0 0
75721 d4 x -18.0 1836.0 1836.0 1
75804 d5 x 1151.0 0.0 2987.0 1
75887 d6 x 734.0 0.0 3721.0 1
75970 d7 x -723.0 0.0 2998.0 1
现在,当D具有非零数字时,让我们创建一个将“ C”和“ D”组合在一起的新列
df['newCD'] = df['D'].mask(df['D'] == 0).combine_first(df['C'])
输出:
A B C D D_new grp newCD
75472 d1 x -36.0 0.0 -36.0 0 -36.0
75555 d2 x -38.0 0.0 -74.0 0 -38.0
75638 d3 x -18.0 0.0 -92.0 0 -18.0
75721 d4 x -18.0 1836.0 1836.0 1 1836.0
75804 d5 x 1151.0 0.0 2987.0 1 1151.0
75887 d6 x 734.0 0.0 3721.0 1 734.0
75970 d7 x -723.0 0.0 2998.0 1 -723.0
最后,groupby'grp'和cumsum
newCD:
df['D_new_Details'] = df.groupby('grp')['newCD'].cumsum()
输出:
A B C D D_new grp newCD D_new_Details
75472 d1 x -36.0 0.0 -36.0 0 -36.0 -36.0
75555 d2 x -38.0 0.0 -74.0 0 -38.0 -74.0
75638 d3 x -18.0 0.0 -92.0 0 -18.0 -92.0
75721 d4 x -18.0 1836.0 1836.0 1 1836.0 1836.0
75804 d5 x 1151.0 0.0 2987.0 1 1151.0 2987.0
75887 d6 x 734.0 0.0 3721.0 1 734.0 3721.0
75970 d7 x -723.0 0.0 2998.0 1 -723.0 2998.0
答案 1 :(得分:0)
另一个,类似于斯科特的答案:
groups = df['D'].ne(0).cumsum()
df['new'] = (df['C'].where(df['D'].eq(0), df['D'])
.groupby(groups)
.cumsum()
)