如何基于某些逻辑加入2个数据框

时间:2018-08-23 17:07:32

标签: python pandas dataframe join left-join

我有一个数据框,其中包含以下每两周一次的数据

date            value
15-06-2012      20
30-06-2012      30

我需要加入另一个具有以下数据的数据框:

   date            cost
    2-05-2011       5
    3-04-2012       80
    2-06-2012       10
    3-06-2012       10
    4-06-2012       30
    5-06-2012       20
    10-06-2012      10
    15-06-2012      10
    18-06-2012      30
    20-06-2012      20
    21-06-2012      30
    22-06-2012      30
    29-06-2012      20
    29-10-2012      30

我需要以这样的方式加入2个数据框:从另一个数据框中,我得到2012年6月1日至15日之间的平均费用,以填补2012年6月15日的费用,同样,对于2012年6月30日的费用,我得到的平均值值介于2012年6月6日至2012年6月30日之间,并得到以下结果

 date            value cost
15-06-2012      20     15  which is (10+10+30+20+10+10)/6
30-06-2012      30     26  which is (30+20+30+30+20)/5

2 个答案:

答案 0 :(得分:5)

更改为列日期的datetime,然后我们使用merge_asof

#df.date=pd.to_datetime(df.date,dayfirst=True)
#df1.date=pd.to_datetime(df1.date,dayfirst=True)
df['keepkey']=df.date
mergedf=pd.merge_asof(df1,df,on='date',direction ='forward')
mergedf.groupby('keepkey',as_index=False).mean()
Out[373]: 
     keepkey  cost  value
0 2012-06-15    15     20
1 2012-06-30    26     30

更新:

df['keepkey']=df.date
df['key']=df.date.dt.strftime('%Y-%m')
df1['key']=df1.date.dt.strftime('%Y-%m')
mergedf=pd.merge_asof(df1,df,on='date',by='key',direction ='forward')
mergedf.groupby('keepkey',as_index=False).mean()
Out[417]: 
     keepkey  cost  key  value
0 2012-06-15    15    6   20.0
1 2012-06-30    26    6   30.0

答案 1 :(得分:3)

这需要一个merge,然后是groupby

m = df.merge(df2, on='date', how='outer')
m['date'] = pd.to_datetime(m.date, dayfirst=True)
m = m.sort_values('date')

(m.groupby(m['value'].notnull().shift().fillna(False).cumsum(), 
           as_index=False)
  .agg({'date' : 'last', 'cost' : 'mean', 'value' : 'last'}))

        date  cost  value
0 2012-06-15  15.0   20.0
1 2012-06-30  26.0   30.0