如何清理熊猫数据框列中的文本数据

时间:2019-11-03 19:23:34

标签: python pandas

我正在处理一些银行信息,并且我拥有所有交易的csv文件。我已经将其作为数据框打开,看起来像这样:

banking.csv

我在第二栏中看到的是,我不需要一堆文字,我所感兴趣的只是通常在结尾的商店名称。

我设法摆脱了“销售点-INTERAC零售采购”部分 通过使用

  

checking ['POS'] = checking ['POS']。str.replace('销售点-Interac零售,'''

现在,当我尝试删除此之后紧随商店名称之前的数字时,我的问题就出现了。我想做与上述类似的事情,但是数字都是唯一的,所以我不确定该怎么做。 谢谢你的帮助

1 个答案:

答案 0 :(得分:0)

您可以用正则表达式进行替换:

import re    
checking['POS'].apply(lambda x: re.sub(r"Point of Sale - Interac RETAIL PURCHASE \d+", "", x))

\d+ =“一个或多个数字”。

因此,仅当文本和商店名称之间只有数字时,该功能才起作用。

不幸的是,.replace不允许使用正则表达式,这就是为什么必须使用re模块的原因。