我想找到"代码"来自df2出现在" code1,code2,code3" df1中的列,并返回df2中匹配成功的行。
以下是我的示例代码:
df1 = pd.DataFrame(
{
'terms' : ['term1','term2'],
'code1': ['1234x', '4321y'],
'code2': ['2345x','5432y'],
'code3': ['3456x','6543y']
}
)
df1 = df1[['terms'] + df1.columns[:-1].tolist()]
df2 = pd.DataFrame(
{
'name': ['Dan','Sara'],
'rate': ['3','3.5'],
'location': ['FL','OH'],
'code': ['4444g','6543y']
})
df2 = df2[['name','rate','location','code']]
#combining code1,code2,code3 into new column df1['allcodes']
df1['allcodes'] = df1[df1.columns[1:]].apply(lambda x: ','.join(x.dropna().astype(str)),axis=1)
print(df2[df2['code'].isin(df1['allcodes'])])
所需的结果将是来自df2的行,其中代码在df1中找到:
name rate location code
1 Sara 3.5 OH 6543y
结果是:
Empty DataFrame
Columns: [name, rate, location, code]
Index: []
为什么这会返回一个空数据帧?
答案 0 :(得分:2)
使用,filter
和stack
In [4647]: df2[df2['code'].isin(df1.filter(like='code').stack())]
Out[4647]:
name rate location code
1 Sara 3.5 OH 6543y
或者,如果您使用的code*
列位于1:
In [4648]: df2[df2['code'].isin(df1[df1.columns[1:]].stack())]
Out[4648]:
name rate location code
1 Sara 3.5 OH 6543y
详细
In [4649]: df1.filter(like='code')
Out[4649]:
code1 code2 code3
0 1234x 2345x 3456x
1 4321y 5432y 6543y
In [4650]: df1.filter(like='code').stack()
Out[4650]:
0 code1 1234x
code2 2345x
code3 3456x
1 code1 4321y
code2 5432y
code3 6543y
dtype: object
In [4651]: df2['code'].isin(df1.filter(like='code').stack())
Out[4651]:
0 False
1 True
Name: code, dtype: bool
答案 1 :(得分:2)
选项1
np.in1d
不加选择地检查特定行的df2.code
是否在df1
df2[np.in1d(df2.code, df1[['code1', 'code2', 'code3']])]
name rate location code
1 Sara 3.5 OH 6543y
加快速度
df2[np.in1d(df2.code.values, df1[['code1', 'code2', 'code3']].values)]
选项2
检查df2.loc[x, 'code']
是否在df1.loc[x]
中
我们使用pd.DataFrame.eq
方法,因此我们可以传递axis=0
参数,该参数检查序列是否等于每列。基本上,axis=0
表示对齐索引(而不是列)。
df2[df1[['code1', 'code2', 'code3']].eq(df2.code, 0).any(1)]
name rate location code
1 Sara 3.5 OH 6543y
加快速度
df2[(df1[['code1', 'code2', 'code3']].values == df2['code'].values[:, None]).any(1)]