从Pandas DataFrame中删除所有非字母数字字符

时间:2018-09-04 21:58:06

标签: python regex pandas dataframe

我在Pandas中有一个大型DataFrame。其col列包含文本(单词序列)。对于此列中的每个值,我希望所有单词都去除所有非字母数字字符。以下是一些我想放下的东西的例子:

  • , . ' " { } [ ] ( ) ! @ # $ % & * - +
  • 所有数字/数字
  • 商标,注册商标,版权等符号
  • 所有非英文字符

最重要的是,我希望将结果放回原处。例如,如果col中的一个字段的值为I'll be there @ 5, no $hit!,则输出应为Ill be there no hit,并且应将其设置为该行/列的新值(制作DataFrame的副本没关系)。如果删除不需要的字符导致一个空字符串,则该值应为一个空字符串。

在Pandas中最有效的方法是什么? (数据框大约有500万行,col字段的每一行平均长度为50。)

0 个答案:

没有答案