蟒蛇。从大型数据集中删除表情符号和一些标点符号的有效方法

时间:2017-11-23 23:52:18

标签: python regex string pandas

我在Pandas数据帧中有200k行消息。每条消息平均包含230个字符,其中包含表情符号。

现在我想过滤掉除英汉字母和上下字母以及这些符号之外的所有内容:X = csc_matrix(X)

最有效的方法是什么?

1 个答案:

答案 0 :(得分:2)

str.replace^反转一起使用。

df['col'] = df['col'].str.replace('[^\w\s#@/:%.,_-]', '', flags=re.UNICODE)