Question

我有一个名为df1的数据框，看起来像这样：

  Loc    Start      End 
  CA     2013-11-08 2014-04-14
  CO     2014-04-14 2014-04-16
  CA     2014-04-16 2014-04-18
  CO     2014-04-18 2014-04-23

还有另一个名为df2的数据框，它看起来像这样：

Date       Loc Flag
2014-04-14  CO   0
2014-04-14  CO   0
2014-04-14  CO   0
2014-04-15  CO   0
2014-04-15  CO   0
2014-04-16  CO   0
2014-04-16  CO   0
2014-04-16  VA   0
2014-04-16  CA   0

我想构建一个函数，以便对于Start中的每个End和df1期间，该函数检查df2中的行是否在该日期范围内匹配位置，即进行loc的匹配。它们不匹配的地方，我希望Flag标记为1。这是我尝试的代码：

for i in range(len(df1)):
    for j in range(len(df2)):
        if df2['Date'][j] <= df1['End Date'][i] and \
        df2['Date'][j] >= df1['Start Date'][i]: 
            if df2['Loc'][j] != df1['Loc'][i]:
                df2['flag'][j] = 1

我的代码将位置实际匹配的位置设为1。我认为是由于Start和End日期重叠。关于如何解决此问题的任何提示？谢谢

Answer 1

更简单的解决方案是使用merge_asof。这类似于左联接，除了我们匹配最近的键而不是相等的键。这里是更多：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge_asof.html

df1['interval'] = pd.to_datetime(df1['start_date'])
df2['interval'] = pd.to_datetime(df2['Date'])

df1.sort_values(by=['interval'])
df2.sort_values(by=['interval'])

df3 = pd.merge_asof(df2, df1, on='interval', by='Loc')

日期范围匹配功能熊猫

1 个答案: