如何为数据框中的每一行添加一个比较列(即lead
)。它应采用列均值(总的前导均值)并减去其月均值。可以使用apply
和lambda来使用groupby
吗?
即如何创建其他比较列Lead_Diff
,这是行项目“每月平均阅读量”与其总体/列平均值的差。下面是我的数据的模型,谢谢。
info = {'date': ['01-18', '02-18', '03-18', '01-18','02-18','01-18','03-18'],
'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}
df = pd.DataFrame.from_dict(info)
答案 0 :(得分:0)
我相信您需要transform
的mean
中的Series
,其大小与原始DataFrame
相同,并减去列的mean
:
df['mean'] = df.groupby('date')['lead'].transform('mean') - df['lead'].mean()
print (df)
date lead copper mean
0 01-18 0.1 0.7 -0.033333
1 02-18 0.2 0.6 -0.050000
2 03-18 0.3 0.5 0.100000
3 01-18 0.4 0.4 -0.033333
4 02-18 0.5 0.3 -0.050000
5 01-18 0.6 0.2 -0.033333
6 03-18 0.7 0.1 0.100000
如果年份并不重要,只需要几个月就可以知道:
#changed data
info = {'date': ['01-18', '03-17', '03-18', '01-18','03-17','01-17','03-17'],
'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}
df = pd.DataFrame.from_dict(info)
df['date'] = pd.to_datetime(df['date'], format='%m-%y')
df['mean'] = df.groupby(df['date'].dt.month)['lead'].transform('mean') - df['lead'].mean()
print (df)
date lead copper mean
0 2018-01-01 0.1 0.7 -0.033333
1 2017-03-01 0.2 0.6 0.025000
2 2018-03-01 0.3 0.5 0.025000
3 2018-01-01 0.4 0.4 -0.033333
4 2017-03-01 0.5 0.3 0.025000
5 2017-01-01 0.6 0.2 -0.033333
6 2017-03-01 0.7 0.1 0.025000