python中的正则表达式熊猫

时间:2019-03-20 09:02:40

标签: python regex pandas

我的数据框为df['data']列。

对于此列数据的每一行,我要验证每一行的字符串是否包含以下任何内容:

risque de fraude, risques de fraude, risques de frodes, fraud risk, fraud,fraude, frode,fraudes, frodes

如果该行包含以下字符串之一,则返回1。

我如何使用正则表达式呢?

谢谢

1 个答案:

答案 0 :(得分:3)

使用pd.Series.str.contains和正则表达式:

df['new'] = df['data'].str.lower().str.contains('risque de fraude|risques de fraude|risques de frodes|fraud risk|fraude|frode|fraudes|frodes').astype(int)

现在:

print(df)

将导致数据帧中有一个附加列,'new'具有预期的01整数值。