使用rvest从分页表中抓取数据

时间:2017-03-20 02:57:18

标签: r web-scraping rvest

我是数据抓取的新手,并尝试使用rvest从本网站上的长桌中获取所有薪资数据: https://www.fedsdatacenter.com/federal-pay-rates/

如预期的那样,下面的代码给出了数据的变量名称:

url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
names <- url %>% 
read_html() %>%
html_node('thead') %>%
html_text()  

但是,为什么这段代码没有给我数据?

url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
dat <- url %>% 
read_html() %>%
html_node('tbody') %>%
html_text() 

我在本文中提到了一个示例:http://bradleyboehmke.github.io/2015/12/scraping-html-tables.html

url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
sal <- url %>% 
read_html() %>%
html_node('#table-example') %>%
html_table(fill=TRUE)

同样,它只生成没有数据的列名。

另外,我应该如何阅读所有数万页以获取表格中的所有数据?我怀疑我需要使用“#table-example_wrapper&gt; div:nth-​​child(2)&gt; div”中的信息,但不知道如何。有人可以帮忙吗?

0 个答案:

没有答案