Question

“财富”500强的历史数据如下： http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/101.html 如果我想自动化它，很容易刮到桌子上。接下来的100个条目的“下一个”按钮位于下拉菜单中。我也希望在1955年至2005年间这样做。如果有人能用R帮助我这样做，我会很高兴。感谢永远！

Answer 1

我建议使用像x-ray这样的合适工具，用于npm＆amp; R的 rvest 。

我看到基本的URl是 http://archive.fortune.com/magazines/fortune/fortune500_archive/full/1955/

DropDown部分就像分页一样......每个页面都有100行，所有分页链接都在下拉列表中作为选项所以DropDown类是`

formSelect

`所以如果你从那个选择器链接URl的列表..x-ray会获取每个表的所有100行

url <-  read_html("BaseURl")

pagination.last <- url %>% 
  html_node("..formSelect options") %>%
  html_text() %>% 
  stringr::str_extract_all("[:number:]{1,2}", simplify = TRUE) %>%
  as.numeric()

> pagination.last

我如何在每年的描述中刮掉表格？

1 个答案: