如何将功能应用于推文数据框?

时间:2020-05-10 22:15:30

标签: pandas dataframe arabic data-cleaning tweets

此功能用于清除数据帧熊猫中的阿拉伯文推文

def clean_tweets(s):
    s= s.replace("RT",'')
    r = re.compile(r"(?:^|\s)([@#h])(\w+)")
    s=re.sub(r,"",s)
    s = re.sub('[:/.…!"()]', '', s)
    s = re.sub('[a-zA-Z]', '', s)
    s = re.sub('[0-9]', '', s)
    return s

数据框仅包含一列(推文)

Tweets
0 الجنائية" ترفض *- طلب...
1 كورونا" في  @@@#$البيت...
2 طيران الإمارات تت...
3 خلال 24 ساعة.. #### أمري...
4 &&تنقب عن النفط...```

-我需要在tweet上应用clean_tweets函数(数据帧中的行)吗? 怎么样?

1 个答案:

答案 0 :(得分:1)

假设推文是一个系列,您可以做

tweets.apply(clean_tweets)