标签: python regex string pandas
我在Pandas数据帧中有200k行消息。每条消息平均包含230个字符,其中包含表情符号。
现在我想过滤掉除英汉字母和上下字母以及这些符号之外的所有内容:X = csc_matrix(X)
X = csc_matrix(X)
最有效的方法是什么?
答案 0 :(得分:2)
将str.replace与^反转一起使用。
str.replace
^
df['col'] = df['col'].str.replace('[^\w\s#@/:%.,_-]', '', flags=re.UNICODE)