基于多列删除数据帧之间的交集

时间:2016-05-16 04:49:07

标签: python pandas

我有这两个数据框:

df_test
  dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id  \
0            -1            -1            -1            -1            -1   
1    1177314888     238198786    5770904146     133207291         Exact   
2    1177314888     238198786    5770904266   18395155770         Exact   
3    1177314888     238198786    5770904266   19338210057         Exact   
4    1177314888     238198786    5770904266   30907903234         Exact 

df_merge
dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id  \
0            -1            -1            -1            -1            -1   
1    1177314888     238198786    5770904146     133207291         Exact 

我想根据df_mergedf_testdimension1_id,{{1}的组合,从dimension2_id移除dimension3_id内的所有内容}和dimension4_id

这是我的代码:

dimension5_id

但是这段代码返回一个空数据框。如何从df_test中删除第一行和第二行?

1 个答案:

答案 0 :(得分:5)

您可以使用逻辑索引通过应用直接比较来屏蔽所需的行。在这种情况下,您可以检查df_test中的值df_merge

df_test.isin(df_merge)

生成的逻辑索引充当掩码:

dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id      \
0          True          True          True          True          True   True
1          True          True          True          True          True   True
2         False         False         False         False         False  False
3         False         False         False         False         False  False
4         False         False         False         False         False  False

True值映射到匹配的行,因此我们可以使用~简单地否定索引,以仅返回df_merge中不是df_test的行:

df_test[~df_test.isin(df_merge)]