熊猫添加栏比较结果

时间:2018-12-17 10:56:49

标签: python pandas lambda apply

如何为数据框中的每一行添加一个比较列(即lead)。它应采用列均值(总的前导均值)并减去其月均值。可以使用apply和lambda来使用groupby吗?

即如何创建其他比较列Lead_Diff,这是行项目“每月平均阅读量”与其总体/列平均值的差。下面是我的数据的模型,谢谢。

info = {'date': ['01-18', '02-18', '03-18', '01-18','02-18','01-18','03-18'], 
        'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
        'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}

df = pd.DataFrame.from_dict(info)

1 个答案:

答案 0 :(得分:0)

我相信您需要transformmean中的Series,其大小与原始DataFrame相同,并减去列的mean

df['mean'] = df.groupby('date')['lead'].transform('mean') - df['lead'].mean()
print (df)
    date  lead  copper      mean
0  01-18   0.1     0.7 -0.033333
1  02-18   0.2     0.6 -0.050000
2  03-18   0.3     0.5  0.100000
3  01-18   0.4     0.4 -0.033333
4  02-18   0.5     0.3 -0.050000
5  01-18   0.6     0.2 -0.033333
6  03-18   0.7     0.1  0.100000

如果年份并不重要,只需要几个月就可以知道:

#changed data
info = {'date': ['01-18', '03-17', '03-18', '01-18','03-17','01-17','03-17'], 
    'lead': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6,0.7],
    'copper': [0.7, 0.6, 0.5, 0.4, 0.3, .2, 0.1]}
df = pd.DataFrame.from_dict(info)

df['date'] = pd.to_datetime(df['date'], format='%m-%y')
df['mean'] = df.groupby(df['date'].dt.month)['lead'].transform('mean') - df['lead'].mean()
print (df)
        date  lead  copper      mean
0 2018-01-01   0.1     0.7 -0.033333
1 2017-03-01   0.2     0.6  0.025000
2 2018-03-01   0.3     0.5  0.025000
3 2018-01-01   0.4     0.4 -0.033333
4 2017-03-01   0.5     0.3  0.025000
5 2017-01-01   0.6     0.2 -0.033333
6 2017-03-01   0.7     0.1  0.025000