我是数据抓取的新手,并尝试使用rvest从本网站上的长桌中获取所有薪资数据: https://www.fedsdatacenter.com/federal-pay-rates/
如预期的那样,下面的代码给出了数据的变量名称:
url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
names <- url %>%
read_html() %>%
html_node('thead') %>%
html_text()
但是,为什么这段代码没有给我数据?
url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
dat <- url %>%
read_html() %>%
html_node('tbody') %>%
html_text()
我在本文中提到了一个示例:http://bradleyboehmke.github.io/2015/12/scraping-html-tables.html
url <- "https://www.fedsdatacenter.com/federal-pay-rates/"
sal <- url %>%
read_html() %>%
html_node('#table-example') %>%
html_table(fill=TRUE)
同样,它只生成没有数据的列名。
另外,我应该如何阅读所有数万页以获取表格中的所有数据?我怀疑我需要使用“#table-example_wrapper&gt; div:nth-child(2)&gt; div”中的信息,但不知道如何。有人可以帮忙吗?