我有pandas DataFrame,如下所示。 df1
和df2
都是df
的子集。我现在要创建两个df
的新子集,让他们称呼dftrn
和dftst
。 dftrn
应包含df
和df1
中df2
的所有值。 dftst
应包含不在df
和df1
中的df2
值。最快的方法是什么?
df = pd.DataFrame({
'product': ['prod1', 'prod1', 'prod1', 'prod2', 'prod2', 'prod2'],
'date': ['2017-01-01', '2017-02-01', '2017-03-01', '2017-02-01', '2017-03-01', '2017-04-01'],
'value': [5.1, 5.2, 5.4, 2.3, 2.2, 2.4]
})
df1 = pd.DataFrame({
'product': ['prod1', 'prod1'],
'date': ['2017-02-01', '2017-03-01'],
'value': [5.1, 5.4]
})
df2 = pd.DataFrame({
'product': ['prod2', 'prod2'],
'date': ['2017-02-01', '2017-04-01'],
'value': [2.3, 2.4]
})
我希望dftrn
和dftst
看起来像什么(索引并不重要):
dftrn
date product value
0 2017-02-01 prod1 5.2
1 2017-03-01 prod1 5.4
2 2017-02-01 prod2 2.3
3 2017-04-01 prod2 2.4
dftst
date product value
0 2017-01-01 prod1 5.1
1 2017-03-01 prod2 2.2
答案 0 :(得分:1)
将concat
与isin
s=pd.concat([df1,df2])
df[df.apply(tuple,1).isin(s.apply(tuple,1))]
Out[77]:
date product value
2 2017-03-01 prod1 5.4
3 2017-02-01 prod2 2.3
5 2017-04-01 prod2 2.4
df[~df.apply(tuple,1).isin(s.apply(tuple,1))]
Out[78]:
date product value
0 2017-01-01 prod1 5.1
1 2017-02-01 prod1 5.2
4 2017-03-01 prod2 2.2