删除熊猫数据框中的相似单词

时间:2019-01-27 18:33:22

标签: python pandas dataframe

我有一个数据框,我想以任何形式删除出现的“ XXXX”,因为我的数据在很多方面都出现了该单词。例如我的数据框看起来像这样

['XXXX / XXXX / 16','{','$','39 .00','}','XXXX / XXXX / 2016','。','过多','收费','将','喜欢','争议','。'] [XX / XX / XXXX”,“日期”,“最后”,“付款”,“,”,“最后”,“付款”,“付款”,“ XX / XX / XXXX”]] [“收集器”,“通话”,“非”,“停止”,“。”,“ XXXX / XXXX / 15”  'Med','XXXXXXXX','{','$','290.00','}','XX / XX / XXXX-XX / XX / XXXX']

所需的输出应以上述任何形式删除所有出现的“ XX”。

我在这里使用的代码是

stop =  ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])

上面的代码只是从熊猫数据框中删除了“ XXXX:”的出现,但是您应该如何删除其余XXXX出现的形式与上面不同的形式

1 个答案:

答案 0 :(得分:0)

似乎您正在寻找正则表达式。如果我正确理解了您的问题,那么this question与您的要求非常相关。

  1. 创建正则表达式
  2. 在数据框上应用df.column_name.str.match。这将为每行创建一个包含TrueFalse的数据框。
  3. 根据上一步完成的匹配过滤数据框。

查看this的特定答案以查看相关代码。