我正在rvest
中使用R
软件包,并希望从仅包含全部信息的40%的表中抓取一些数据。我遵循了this blog的帖子,但是当不同页面的HTML地址没有差异时,它没有指定如何抓取数据。 This website是我要从中获取一些工作清单数据的人。
我已使用以下代码成功检索了第一页上的数据:
job_page <-
read_html(
'page_address'
)
data_raw <- job_page %>%
html_node('table') %>%
html_text()
当多页数据的HTML地址没有不同时,是否可以刮取网页?我的希望是使用lapply
以某种方式遍历多个页面。
答案 0 :(得分:1)
请改用此URL,它应该在一页内为您提供所有结果:
http://explore.msujobs.msstate.edu/cw/en-us/filter/?search-keyword=&job-mail-subscribe-privacy=agree&location=main%20campus%20-%20starkville%20ms&category=faculty&page=1&page-items=100
您可以在Chrome中打开开发者工具,然后选择“网络”标签。您可以检查请求并调整搜索参数。