Question

我正在rvest中使用R软件包，并希望从仅包含全部信息的40％的表中抓取一些数据。我遵循了this blog的帖子，但是当不同页面的HTML地址没有差异时，它没有指定如何抓取数据。 This website是我要从中获取一些工作清单数据的人。

我已使用以下代码成功检索了第一页上的数据：

job_page <-
  read_html(
    'page_address'
  )

data_raw <- job_page %>%
  html_node('table') %>%
  html_text()

当多页数据的HTML地址没有不同时，是否可以刮取网页？我的希望是使用lapply以某种方式遍历多个页面。

Answer 1

请改用此URL，它应该在一页内为您提供所有结果：

http://explore.msujobs.msstate.edu/cw/en-us/filter/?search-keyword=&job-mail-subscribe-privacy=agree&location=main%20campus%20-%20starkville%20ms&category=faculty&page=1&page-items=100

您可以在Chrome中打开开发者工具，然后选择“网络”标签。您可以检查请求并调整搜索参数。

从具有跨越多个页面的表的网页中收集信息

1 个答案: