我有一个数据框,我想以任何形式删除出现的“ XXXX”,因为我的数据在很多方面都出现了该单词。例如我的数据框看起来像这样
['XXXX / XXXX / 16','{','$','39 .00','}','XXXX / XXXX / 2016','。','过多','收费','将','喜欢','争议','。'] [XX / XX / XXXX”,“日期”,“最后”,“付款”,“,”,“最后”,“付款”,“付款”,“ XX / XX / XXXX”]] [“收集器”,“通话”,“非”,“停止”,“。”,“ XXXX / XXXX / 15” 'Med','XXXXXXXX','{','$','290.00','}','XX / XX / XXXX-XX / XX / XXXX']
所需的输出应以上述任何形式删除所有出现的“ XX”。
我在这里使用的代码是
stop = ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])
上面的代码只是从熊猫数据框中删除了“ XXXX:”的出现,但是您应该如何删除其余XXXX出现的形式与上面不同的形式
答案 0 :(得分:0)
似乎您正在寻找正则表达式。如果我正确理解了您的问题,那么this question与您的要求非常相关。
df.column_name.str.match
。这将为每行创建一个包含True
和False
的数据框。查看this的特定答案以查看相关代码。