我是所有这一切的新手,所以我并不完全熟悉所有术语。我以this link为例,以刮擦从https://old.reddit.com/发布帖子的时间。它说使用SelectorGadget工具绕过学习其他语言,所以我就是这样做的。 尽管我在old.reddit上的页面显示了100条帖子(所以有100次不同的时间),但实际上实际上从我的代码中仅提取了25种不同的时间值。这是我的代码:
library(rvest)
url <- 'https://old.reddit.com/'
rawdata <- read_html(url)
rawtime <- html_nodes(rawdata, '.live-timestamp')
#".live-timestamp" was obtained using the Chrome extension "SelectorGadget"
finalresult <- bind_rows(lapply(xml_attrs(rawtime), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
答案 0 :(得分:0)
或者,您可以使用PRAW从Reddit获取信息。这是解决您问题的一种特殊解决方案,但可能会起作用。
https://praw.readthedocs.io/en/latest/
然后在subreddit r / redditdev
中答案 1 :(得分:0)
您需要登录或使用?limit=100
参数才能在列表中获取100个项目。
有关更多信息,请参见the API documentation:
limit: the maximum number of items desired (default: 25, maximum: 100)