推文上的数字过滤器无法正常工作

时间:2017-02-23 00:35:46

标签: r twitter text-mining

我正在尝试从像1. 2这样的用户那里获取推文洪水。我接受了近1000条推文,过滤它们仅以数字开头,但它并没有给我所有正确的信息。它提供了非常少量的推文。

这是我的代码的一部分。

tot_tweet = userTimeline("bohringerstein", n=5000)

tweets_df = twListToDF(tot_tweet)
tweet_txt = tweets_df$text 

cleaned_txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)","",tweet_txt)
cleaned_txt = gsub("@\\w+", "",cleaned_txt)

从这里开始,一切都很正常。当我进行过滤时,不会给所有推文开始任何数字。

filtered <- grep(pattern = "^[1-150]", x= cleaned_txt, value=TRUE)

0 个答案:

没有答案