此功能用于清除数据帧熊猫中的阿拉伯文推文
def clean_tweets(s):
s= s.replace("RT",'')
r = re.compile(r"(?:^|\s)([@#h])(\w+)")
s=re.sub(r,"",s)
s = re.sub('[:/.…!"()]', '', s)
s = re.sub('[a-zA-Z]', '', s)
s = re.sub('[0-9]', '', s)
return s
数据框仅包含一列(推文)
Tweets
0 الجنائية" ترفض *- طلب...
1 كورونا" في @@@#$البيت...
2 طيران الإمارات تت...
3 خلال 24 ساعة.. #### أمري...
4 &&تنقب عن النفط...```
-我需要在tweet上应用clean_tweets函数(数据帧中的行)吗? 怎么样?
答案 0 :(得分:1)
假设推文是一个系列,您可以做
tweets.apply(clean_tweets)