检查熊猫字符串列是否以任何顺序包含多个单词

时间:2021-06-17 09:53:03

标签: python regex pandas string-matching

我正在处理 Twitter 数据并尝试查找包含多个单词的字符串。 下面一行适用于一个单词和 OR 条件。

tweets_text[tweets_text.str.contains("break")] #Find strings with the word break

tweets_text[tweets_text.str.contains("break|social|media")] #Find strings with either break or social, or media

我正在尝试找到包含这三个词的字符串(“break & social & media”)

2 个答案:

答案 0 :(得分:2)

df = pd.Series(['break', 'break media social', 'break media'])

系列:

0                 break
1    break media social
2           break media

提取:

tweets_text[tweets_text.str.contains('(?=.*break)(?=.*social)(?=.*media)')]

输出:

1    break media social

答案 1 :(得分:0)

你可以这样拆分它们:

tweets_text.loc[tweets_text.str.contains("break") & tweets_text.str.contains("social") & tweets_text.str.contains("media")]
相关问题