使用rvest软件包进行R时,old.reddit只给我25条帖子

时间:2019-01-31 08:09:19

标签: r reddit

我是所有这一切的新手,所以我并不完全熟悉所有术语。我以this link为例,以刮擦从https://old.reddit.com/发布帖子的时间。它说使用SelectorGadget工具绕过学习其他语言,所以我就是这样做的。 尽管我在old.reddit上的页面显示了100条帖子(所以有100次不同的时间),但实际上实际上从我的代码中仅提取了25种不同的时间值。这是我的代码:

library(rvest)

url <- 'https://old.reddit.com/'

rawdata <- read_html(url)

rawtime <- html_nodes(rawdata, '.live-timestamp')
  #".live-timestamp" was obtained using the Chrome extension "SelectorGadget" 

finalresult <- bind_rows(lapply(xml_attrs(rawtime), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))

2 个答案:

答案 0 :(得分:0)

或者,您可以使用PRAW从Reddit获取信息。这是解决您问题的一种特殊解决方案,但可能会起作用。

https://praw.readthedocs.io/en/latest/

然后在subreddit r / redditdev

答案 1 :(得分:0)

您需要登录或使用?limit=100参数才能在列表中获取100个项目。

有关更多信息,请参见the API documentation

limit: the maximum number of items desired (default: 25, maximum: 100)