我有两个表,想离开合并它们。在右表上,我有多行,因此合并结果是一个更大的表。在SQL中,我为每个组使用HAVING
,并使用max()进行过滤。我不确定如何在熊猫中做到这一点。
决赛桌应该像:
df1 = pd.DataFrame([['k1', 2], ['k2', 3], ['k3', 6]], columns=['A', 'B'])
df2 = pd.DataFrame([['k1', 20 , "2018-3-1"], ['k1', 30 ,"2018-3-1" ], ['k3', 60,"2018-4-1"]], columns=['A', 'C', 'Date'])
df3 = pd.merge(df1,df2[['A', 'Date']], on='A', how='left')
无效的解决方案:
df3.groupby('A').filter(lambda x: x['Date']==x['Date'].max())
答案 0 :(得分:3)
我们可以使用sort_values
和drop_duplicates
df1.merge(df2.sort_values('Date').drop_duplicates(['A'],keep='last'),on=['A'],how='left')
A B C Date
0 k1 2 30.0 2018-3-1
1 k2 3 NaN NaN
2 k3 6 60.0 2018-4-1
或类似于SQL
df1.merge(df2.groupby('A',as_index=False).max(),on=['A'],how='left')