Question

我一直在使用R包RedditExtractoR并运行以下代码-

#### Reddit Data####

####LOAD LIBRARIES####
#for extracting data
library(RedditExtractoR)

####PARENTING####
parenting_all = get_reddit(search_terms = NA, regex_filter = "", subreddit = "parenting",cn_threshold = 0, page_threshold = 10000, sort_by = "new", wait_time = 2)
save(parenting_all,file="parenting_all.Rda")

但是由于某种原因，无论我将page_threshold数字推高多少（例如，将x10增大到100000），我只会得到相当一致且数量有限的帖子/评论（大约20,000），这意味着我可以t可以回去很远，在这种情况下，可以回溯到9月初...

换句话说，无论我将page_threshold值提高多少，我似乎都无法删除更多帖子，而我希望从去年开始删除帖子...

我知道reddit的API将每条帖子可以刮取的评论数限制为500条，但是我肯定在其他地方看到了更大数量的帖子。有任何想法吗？

谢谢！

Answer 1

我相信Reddit也limits可以提取的线程数，因此一次只能提取这么多数据。

如果您要查找更多数据，也许您想使用现有的数据转储，例如this one。

R中的RedditExtractoR不会将帖子拉到特定点吗？

1 个答案: