用于R(2.15.2)的twitteR包中的searchTwitter() - 重复推文的数量很多

时间:2013-03-21 13:00:38

标签: r twitter

尝试通过Twitter REST API中的pull来创建与关键字关联的Twitter用户名的数据框。但是,对于许多搜索字词(例如searchTwitter())使用#rstats的查询,即使对于n = 1000这样的大型样本,也会返回高度(> 90%)的重复推文。

一个具体的例子是:

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

如果搜索字词相对稀缺,我是否想知道这是否是由于分页限制造成的?

1 个答案:

答案 0 :(得分:1)

首先,您的代码中的第3行应该是df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]吗?

我猜你运行上面的代码时得到的推文少于1000条(我得到604,而dim(df.undup)的结果是604 10)。所以问题,我想,不是重复的问题,而是推文的数量少于1000.

如果查看创建日期,最早的推文是从3月14日(一周前)开始的。通常,Twitter API通常不允许用户访问超过7-9天的推文。我想这就是为什么你收到的推文数量较少的原因。

要查看,请查看dim(tweets.df)dim(undup.df)是否返回相同的内容。