我在Pandas中有一个大型DataFrame。其col
列包含文本(单词序列)。对于此列中的每个值,我希望所有单词都去除所有非字母数字字符。以下是一些我想放下的东西的例子:
, . ' " { } [ ] ( ) ! @ # $ % & * - +
最重要的是,我希望将结果放回原处。例如,如果col
中的一个字段的值为I'll be there @ 5, no $hit!
,则输出应为Ill be there no hit
,并且应将其设置为该行/列的新值(制作DataFrame的副本没关系)。如果删除不需要的字符导致一个空字符串,则该值应为一个空字符串。
在Pandas中最有效的方法是什么? (数据框大约有500万行,col
字段的每一行平均长度为50。)