合并具有不同日期的数据框?

时间:2018-12-25 03:36:37

标签: python pandas dataframe data-manipulation

我想将一个单独的数据帧(df2)与主数据帧(df1)合并,但是如果对于给定的行,df1中的日期在df2中不存在,则搜索位于基础日期之前的最近日期df1。

我尝试使用pd.merge,但是它将删除日期不匹配的行,而只保留两个df中匹配的行。

df1 = [['2007-01-01','A'],
       ['2007-01-02','B'],
       ['2007-01-03','C'],
       ['2007-01-04','B'],
       ['2007-01-06','C']]

df2 = [['2007-01-01','B',3],
       ['2007-01-02','A',4],
       ['2007-01-03','B',5],
       ['2007-01-06','C',3]]

df1 = pd.DataFrame(df1)
df2 = pd.DataFrame(df2)
df1[0] = pd.to_datetime(df1[0])
df2[0] = pd.to_datetime(df2[0])

当前df1 | pd.merge():

    0           1   2
0   2007-01-06  C   3  

仅获取两个df之间的确切日期,而不考虑最近日期的值。

期望的df1:

    0           1   2
0   2007-01-01  A   NaN
1   2007-01-02  B   3
2   2007-01-03  C   NaN
3   2007-01-04  B   3
4   2007-01-06  C   3

由于数据在df2当天或之前不存在而获得NaN。对于索引行1,它在前一天之前获取数据,而索引行4,它恰好在同一天获取数据。

2 个答案:

答案 0 :(得分:2)

使用merge_asof

检查您的输出
pd.merge_asof(df1,df2,on=0,by=1,allow_exact_matches=True)
Out[15]: 
           0  1    2
0 2007-01-01  A  NaN
1 2007-01-02  B  3.0
2 2007-01-03  C  NaN
3 2007-01-04  B  5.0 # here should be 5 since 5 ' date is more close. also df2 have two B 
4 2007-01-06  C  3.0

答案 1 :(得分:0)

使用您假定没有的合并代码,因为它在您的问题中不存在,请插入参数how=lefthow=outer

它应该看起来像这样:

dfmerged = pd.merge(df1, df2, how='left', left_on=['Date'], right_on=['Date'])  

然后可以使用切片和重命名来保留所需的列。

dfmerged = dfmerged[['Date', 'Letters', 'Numbers']]

注意:由于您未显示任何代码,因此我不知道您的列名。视需要替换