rvest只返回标题

时间:2018-02-10 14:15:44

标签: r rvest

以下代码仅返回列标题。我尝试了几种方法,但没有运气。

library(rvest)
the <- read_html("https://www.timeshighereducation.com/world-university-rankings/2018/regional-ranking#!/page/0/length/25/sort_by/rank/sort_order/asc/cols/stats")
rating <- the %>% 
  html_nodes("table") %>%
  html_table()
rating

1 个答案:

答案 0 :(得分:3)

问题是表在页面之前加载。有很多方法可以做:

在这种情况下最简单的一个是使用RSelenium作为webdriver,并收集结果:

library(RSelenium)
library(rvest)

url <- "https://www.timeshighereducation.com/world-university-rankings/2018/regional-ranking#!/page/0/length/25/sort_by/rank/sort_order/asc/cols/stats"
rD <- rsDriver()
remDr <- rD[["client"]]
remDr$navigate(url)

page <- read_html(remDr$getPageSource()[[1]])
table <- page %>% html_nodes("table") %>% html_table()

table

另一种方式,是解释网站交易的json结果,相应的网址https://www.timeshighereducation.com/sites/default/files/the_data_rankings/asia_university_rankings_2018_limit0_c36ae779f4180136af6e4bf9e6fc1081.json

希望这会有所帮助

Gottavianoni