我正在尝试从像1. 2这样的用户那里获取推文洪水。我接受了近1000条推文,过滤它们仅以数字开头,但它并没有给我所有正确的信息。它提供了非常少量的推文。
这是我的代码的一部分。
tot_tweet = userTimeline("bohringerstein", n=5000)
tweets_df = twListToDF(tot_tweet)
tweet_txt = tweets_df$text
cleaned_txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)","",tweet_txt)
cleaned_txt = gsub("@\\w+", "",cleaned_txt)
从这里开始,一切都很正常。当我进行过滤时,不会给所有推文开始任何数字。
filtered <- grep(pattern = "^[1-150]", x= cleaned_txt, value=TRUE)