R中的RedditExtractoR不会将帖子拉到特定点吗?

时间:2018-10-01 04:01:05

标签: r web-scraping package reddit

我一直在使用R包RedditExtractoR并运行以下代码-

#### Reddit Data####

####LOAD LIBRARIES####
#for extracting data
library(RedditExtractoR)

####PARENTING####
parenting_all = get_reddit(search_terms = NA, regex_filter = "", subreddit = "parenting",cn_threshold = 0, page_threshold = 10000, sort_by = "new", wait_time = 2)
save(parenting_all,file="parenting_all.Rda")

但是由于某种原因,无论我将page_threshold数字推高多少(例如,将x10增大到100000),我只会得到相当一致且数量有限的帖子/评论(大约20,000),这意味着我可以t可以回去很远,在这种情况下,可以回溯到9月初...

换句话说,无论我将page_threshold值提高多少,我似乎都无法删除更多帖子,而我希望从去年开始删除帖子...

我知道reddit的API将每条帖子可以刮取的评论数限制为500条,但是我肯定在其他地方看到了更大数量的帖子。有任何想法吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

我相信Reddit也limits可以提取的线程数,因此一次只能提取这么多数据。

如果您要查找更多数据,也许您想使用现有的数据转储,例如this one