从具有跨越多个页面的表的网页中收集信息

时间:2018-06-20 11:56:36

标签: r web-scraping rvest

我正在rvest中使用R软件包,并希望从仅包含全部信息的40%的表中抓取一些数据。我遵循了this blog的帖子,但是当不同页面的HTML地址没有差异时,它没有指定如何抓取数据。 This website是我要从中获取一些工作清单数据的人。

我已使用以下代码成功检索了第一页上的数据:

job_page <-
  read_html(
    'page_address'
  )

data_raw <- job_page %>%
  html_node('table') %>%
  html_text()

当多页数据的HTML地址没有不同时,是否可以刮取网页?我的希望是使用lapply以某种方式遍历多个页面。

1 个答案:

答案 0 :(得分:1)

请改用此URL,它应该在一页内为您提供所有结果:

http://explore.msujobs.msstate.edu/cw/en-us/filter/?search-keyword=&job-mail-subscribe-privacy=agree&location=main%20campus%20-%20starkville%20ms&category=faculty&page=1&page-items=100

您可以在Chrome中打开开发者工具,然后选择“网络”标签。您可以检查请求并调整搜索参数。