如何过滤哪一列包含另一列的行? 例如,如果我们有两个列A,B的DT,我们可以用B.contains(A)过滤行吗?不仅B包含来自DT的所有A的一些A值,而且只是在一行中。
A B 'lol' 'lolec' 'ram' 'rambo' 'ki' 'pio' Result: A B 'lol' 'lolec' 'ram' 'rambo'
答案 0 :(得分:4)
您可以使用str.contains
来匹配每个子字符串,方法是使用正则表达式|
字符,这意味着从其他系列的内容中选择OR
:
df[df['B'].str.contains("|".join(df['A']))]
答案 1 :(得分:2)
如果apply
和in
创建的掩码使用boolean indexing
,则每行需要过滤列A
和B
:
#if necessary strip ' in all values
df = df.apply(lambda x: x.str.strip("'"))
#df = df.applymap(lambda x: x.strip("'"))
print (df.apply(lambda x: x.A in x.B, axis=1))
0 True
1 True
2 False
dtype: bool
df = df[df.apply(lambda x: x.A in x.B, axis=1)]
print (df)
A B
0 lol lolec
1 ram rambo
解决方案的差异 - 输入DataFrame
已更改:
print (df)
A B
0 lol pio
1 ram rambo
2 ki lolec
print (df[df.apply(lambda x: x.A in x.B, axis=1)])
A B
1 ram rambo
print (df[df['B'].str.contains("|".join(df['A']))])
A B
1 ram rambo
2 ki lolec