我如何在每年的描述中刮掉表格?

时间:2017-11-05 16:59:45

标签: r web-scraping

“财富”500强的历史数据如下: http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/101.html 如果我想自动化它,很容易刮到桌子上。接下来的100个条目的“下一个”按钮位于下拉菜单中。我也希望在1955年至2005年间这样做。 如果有人能用R帮助我这样做,我会很高兴。感谢永远!

1 个答案:

答案 0 :(得分:1)

我建议使用像x-ray这样的合适工具,用于npm& R的 rvest

  

我看到基本的URl是   http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/

DropDown部分就像分页一样......每个页面都有100行,所有分页链接都在下拉列表中作为选项 所以DropDown类是`

  

formSelect

`所以如果你从那个选择器链接URl的列表..x-ray会获取每个表的所有100行

url <-  read_html("BaseURl")

pagination.last <- url %>% 
  html_node("..formSelect options") %>%
  html_text() %>% 
  stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
  as.numeric()

> pagination.last