Question

我有一个与熊猫相关的问题：我需要根据该列中包含（或不包含）的子字符串来过滤一列（约40k条目）。列中的每个条目基本上都是很长的属性（文本）列表，我需要能够对其进行单独过滤。这行代码有效，但它不可扩展（我必须过滤数百个属性）：

df[df['Product Lev 1'].str.contains('W1 Rough wood', na=False) & df['Product Lev 1'].str.contains('W1.2', na=False)]

是否可以插入所有需要过滤的项目并将其作为列表传递？还是任何类似的解决方案？

谢谢！

Answer 1

赞：

data = {'col_1': [3, 2, 1, 0], 'col_2': ['aaaaDB', 'bbbbbbCB', 'cccccEB', 'ddddddUB']}
df=pd.DataFrame.from_dict(data)
lst = ['DB','CB']  #replace with your list
rstr = '|'.join(lst)
df[df['col_2'].str.upper().str.contains(rstr)]

将列表传递给str.contains-熊猫

1 个答案: