我听到很多关于大熊猫应用缓慢的信息,应该尽量少用。
我在这里有一个情况:
df = pd.DataFrame({'Date': ['2019-01-02', '2019-01-03', '2019-01-04'],
'Fund_ID': [9072, 9072, 9072],
'Fund_Series': ['A', 'A', 'A'],
'Value': [1020.0, 1040.4, 1009.188],
'Dividend': [0.0, 0.0, 52.02]})
在分组之后,我想进行如下调整的加权操作:
df['Pct_Change_Adjusted'] = df.groupby(['Fund_ID', 'Fund_Series'], as_index=False) \
.apply(lambda x: (x.Value + x.Dividend)/(x.Value.shift()+x.Dividend.shift()) ) \
.reset_index(drop=True).values[0]
print(df)
Date Dividend Fund_ID Fund_Series Value Pct_Change_Adjusted
0 2019-01-02 0.00 9072 A 1020.000 NaN
1 2019-01-03 0.00 9072 A 1040.400 0.02
2 2019-01-04 52.02 9072 A 1009.188 0.02
这里apply
是否有其他选择可以提高效率,或者至少可以提高工作效率!
注意:我不是在谈论快感和其他平行感,而只是在谈论纯熊猫。
必填:
在不使用apply的情况下计算列Pct_Change_Adjusted
。
答案 0 :(得分:4)
是的,可以使用groupby.pct_change
将其100%向量化:
(df.Value + df.Dividend).groupby([df.Fund_ID, df.Fund_Series]).pct_change()
0 NaN
1 0.02
2 0.02
dtype: float64
df['Pct_Change_Adjusted'] = (df.assign(Foo=df['Value'] + df['Dividend'])
.groupby(['Fund_ID', 'Fund_Series'])
.Foo
.pct_change())
df
Date Fund_ID Fund_Series Value Dividend Pct_Change_Adjusted
0 2019-01-02 9072 A 1020.000 0.00 NaN
1 2019-01-03 9072 A 1040.400 0.00 0.02
2 2019-01-04 9072 A 1009.188 52.02 0.02