尝试通过Twitter REST API中的pull来创建与关键字关联的Twitter用户名的数据框。但是,对于许多搜索字词(例如searchTwitter()
)使用#rstats
的查询,即使对于n = 1000
这样的大型样本,也会返回高度(> 90%)的重复推文。
一个具体的例子是:
tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))
df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)
如果搜索字词相对稀缺,我是否想知道这是否是由于分页限制造成的?
答案 0 :(得分:1)
首先,您的代码中的第3行应该是df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]
吗?
我猜你运行上面的代码时得到的推文少于1000条(我得到604,而dim(df.undup)
的结果是604 10
)。所以问题,我想,不是重复的问题,而是推文的数量少于1000.
如果查看创建日期,最早的推文是从3月14日(一周前)开始的。通常,Twitter API通常不允许用户访问超过7-9天的推文。我想这就是为什么你收到的推文数量较少的原因。
要查看,请查看dim(tweets.df)
和dim(undup.df)
是否返回相同的内容。