熊猫merge_asof()提供重复的匹配项

时间:2019-09-13 08:22:09

标签: pandas merge

我有两个要合并的日期时间数据框。因为某些时间戳在数据帧上可能并不完全相同,所以我认为最好使用pandas perc = [str('{:5.2f}'.format(i/df['customers'].sum()*100)) + "%" for i in df['customers']] lbl = [el[0] + " = " + el[1] for el in zip(df['cluster'], perc)] squarify.plot(sizes=df['customers'], label=lbl, alpha=.8 ) 函数。

我想在“最近”值上加入时间戳,但要在给定的公差范围内(例如+/- 5分钟)。但是,似乎merge_asof()函数将时间戳与公差范围内第一个数据帧的所有时间戳进行匹配。下面的示例对此进行了更好的解释。

merge_asof()

实际输出:

import pandas as pd

df1 = pd.date_range("2019-01-01 00:00:00", "2019-01-01 00:04:00", freq='20s')
df1 = pd.DataFrame(df1, columns=['time'])

df2 = pd.DataFrame(["2019-01-01 00:02:00"], columns=['time'])
df2['time'] = pd.to_datetime(df2['time'])
df2['df2_col'] = 'df2'

merged_df = pd.merge_asof(df1, df2, left_on='time', right_on='time',
              tolerance=pd.Timedelta('40s'),
              allow_exact_matches=True,
              direction='nearest')

print (merged_df)

预期输出:

                  time df2_col
0  2019-01-01 00:00:00     NaN
1  2019-01-01 00:00:20     NaN
2  2019-01-01 00:00:40     NaN
3  2019-01-01 00:01:00     NaN
4  2019-01-01 00:01:20     df2
5  2019-01-01 00:01:40     df2
6  2019-01-01 00:02:00     df2
7  2019-01-01 00:02:20     df2
8  2019-01-01 00:02:40     df2
9  2019-01-01 00:03:00     NaN
10 2019-01-01 00:03:20     NaN
11 2019-01-01 00:03:40     NaN
12 2019-01-01 00:04:00     NaN

这是预期的行为吗?我如何设法获得预期的结果?

1 个答案:

答案 0 :(得分:1)

实际输出是预期的行为:merge_asof(left, right)left中的每一行 找到right中最近的一行(在公差范围内)。您想要的内容略有不同:您想在left中找到最接近right的那一行。恐怕熊猫没有内置功能。

要实现所需的功能,可以执行反向merge_asof(right, left),然后将结果与left合并。为了确定在相反的merge_asof结果中需要的行,我们首先重置索引,然后将此信息用于第二次合并:

x = pd.merge_asof(df2, df1.reset_index(), left_on='time', right_on='time',
              tolerance=pd.Timedelta('40s'),
              allow_exact_matches=True,
              direction='nearest')

merged_df = df1.merge(x[['df2_col','index']], how='left', left_index=True, right_on='index').set_index('index')

结果:

                     time df2_col
index                            
0     2019-01-01 00:00:00     NaN
1     2019-01-01 00:00:20     NaN
2     2019-01-01 00:00:40     NaN
3     2019-01-01 00:01:00     NaN
4     2019-01-01 00:01:20     NaN
5     2019-01-01 00:01:40     NaN
6     2019-01-01 00:02:00     df2
7     2019-01-01 00:02:20     NaN
8     2019-01-01 00:02:40     NaN
9     2019-01-01 00:03:00     NaN
10    2019-01-01 00:03:20     NaN
11    2019-01-01 00:03:40     NaN
12    2019-01-01 00:04:00     NaN

注意:在我们的示例中,df1具有未命名的索引。重置此索引会将其转换为默认名称为“ index”的列,我们将在第二次合并中使用该列。但是,如果df1已经有一个名为“索引”的列,那么新列的名称将为“ index_0”,我们将在第二个合并中使用该名称而不是“索引”。