“财富”500强的历史数据如下: http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/101.html 如果我想自动化它,很容易刮到桌子上。接下来的100个条目的“下一个”按钮位于下拉菜单中。我也希望在1955年至2005年间这样做。 如果有人能用R帮助我这样做,我会很高兴。感谢永远!
答案 0 :(得分:1)
我建议使用像x-ray这样的合适工具,用于npm& R的 rvest 。
我看到基本的URl是 http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/
DropDown部分就像分页一样......每个页面都有100行,所有分页链接都在下拉列表中作为选项 所以DropDown类是`
formSelect
`所以如果你从那个选择器链接URl的列表..x-ray会获取每个表的所有100行
url <- read_html("BaseURl")
pagination.last <- url %>%
html_node("..formSelect options") %>%
html_text() %>%
stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
as.numeric()
> pagination.last