Pandas str.contains,包含所有给定的字符

时间:2015-01-26 12:27:14

标签: python pandas dataframe contains

是否可以使用str.contain搜索包含所有给定字符的字符串?

这有效:

df["col1"].str.contains("A")

如果我想找到至少一个给定的角色,这个也适用:

df["col1"].str.contains("A|B")

但是,如果我想找到包含所有给定字符的字符串,那么这不起作用

df["col1"].str.contains("A&B")

结果全是假的。

有什么建议吗? 谢谢!

3 个答案:

答案 0 :(得分:4)

另一种方法:

df['col1'].apply(set('AB').issubset)

一些示例时间:

import pandas as pd
import numpy as np

strings = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', 'CABA', 'dog', 'cat'])
%timeit strings.apply(set('AB').issubset)
# 10000 loops, best of 3: 102 µs per loop
%timeit strings.str.contains('A.*B|B.*A')
# 10000 loops, best of 3: 149 µs per loop
%timeit strings.str.contains('A') & strings.str.contains('B')
# 1000 loops, best of 3: 712 µs per loop

答案 1 :(得分:2)

或者

df['col1'].str.contains('A.*B|B.*A')

df['col1'].str.contains('A') & df['col1'].str.contains('B')

示例:

>>> df
      col1
0  wAxyzBw
1  wBxyzAw
2    wAxyz
3    wBxyz
>>> df['col1'].str.contains('A.*B|B.*A')
0     True
1     True
2    False
3    False
Name: col1, dtype: bool
>>> df['col1'].str.contains('A') & df['col1'].str.contains('B')
0     True
1     True
2    False
3    False
Name: col1, dtype: bool

答案 2 :(得分:0)

如果您正在寻找大型(或最初未知的)字符集,那么稍微更通用的方法是

DataFrame({key: df.col1.str.contains(key) for key in 'AB'}).all(axis=1)

可能有更好的方法(通常是在熊猫:),但它给了我与5mm行DF上 @ benzad.nouri 的答案相当的性能。