Question

尝试通过Twitter REST API中的pull来创建与关键字关联的Twitter用户名的数据框。但是，对于许多搜索字词（例如searchTwitter()）使用#rstats的查询，即使对于n = 1000这样的大型样本，也会返回高度（> 90％）的重复推文。

一个具体的例子是：

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

如果搜索字词相对稀缺，我是否想知道这是否是由于分页限制造成的？

Answer 1

首先，您的代码中的第3行应该是df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]吗？

我猜你运行上面的代码时得到的推文少于1000条（我得到604，而dim(df.undup)的结果是604 10）。所以问题，我想，不是重复的问题，而是推文的数量少于1000.

如果查看创建日期，最早的推文是从3月14日（一周前）开始的。通常，Twitter API通常不允许用户访问超过7-9天的推文。我想这就是为什么你收到的推文数量较少的原因。

要查看，请查看dim(tweets.df)和dim(undup.df)是否返回相同的内容。

用于R（2.15.2）的twitteR包中的searchTwitter（） - 重复推文的数量很多

1 个答案: