Question

我有一个数据框，我想以任何形式删除出现的“ XXXX”，因为我的数据在很多方面都出现了该单词。例如我的数据框看起来像这样

['XXXX / XXXX / 16'，'{'，'$'，'39 .00'，'}'，'XXXX / XXXX / 2016'，'。'，'过多'，'收费'，'将'，'喜欢'，'争议'，'。'] [XX / XX / XXXX”，“日期”，“最后”，“付款”，“，”，“最后”，“付款”，“付款”，“ XX / XX / XXXX”]] [“收集器”，“通话”，“非”，“停止”，“。”，“ XXXX / XXXX / 15” 'Med'，'XXXXXXXX'，'{'，'$'，'290.00'，'}'，'XX / XX / XXXX-XX / XX / XXXX']

所需的输出应以上述任何形式删除所有出现的“ XX”。

我在这里使用的代码是

stop =  ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])

上面的代码只是从熊猫数据框中删除了“ XXXX：”的出现，但是您应该如何删除其余XXXX出现的形式与上面不同的形式

Answer 1

似乎您正在寻找正则表达式。如果我正确理解了您的问题，那么this question与您的要求非常相关。

创建正则表达式
在数据框上应用df.column_name.str.match。这将为每行创建一个包含True和False的数据框。
根据上一步完成的匹配过滤数据框。

查看this的特定答案以查看相关代码。

删除熊猫数据框中的相似单词

1 个答案: