我在抓取和提取值时遇到问题

时间:2020-01-03 04:34:53

标签: r web-scraping rvest

因此,我尝试通过网络抓 我有这组代码

base_url <- "https://www.indeed.com/jobs?q="
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <-test_url %>%
  html_node('#searchCountPages') %>%
  html_text()

我正在尝试将一个工作的总数作为一个整数,但是存在多个问题。在上面的代码中,total_jobs是一个字符向量(我认为),它类似于“第1,128个职位的第1页”

在这个示例中,我基本上试图将1128的值提取为整数,但是我不能有人帮助我吗?

1 个答案:

答案 0 :(得分:0)

在@NelsonGon提示之后:

library(rvest)
library(stringr)

test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <- test_url %>%
  html_node('#searchCountPages') %>%
  html_text() %>% 
  str_extract_all(., "\\d+") %>%
  gsub(",", "", .) %>% 
  unlist(.) %>% 
  as.integer() %>% 
  max()