Question

因此，我尝试通过网络抓我有这组代码

base_url <- "https://www.indeed.com/jobs?q="
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <-test_url %>%
  html_node('#searchCountPages') %>%
  html_text()

我正在尝试将一个工作的总数作为一个整数，但是存在多个问题。在上面的代码中，total_jobs是一个字符向量（我认为），它类似于“第1,128个职位的第1页”

在这个示例中，我基本上试图将1128的值提取为整数，但是我不能有人帮助我吗？

Answer 1

在@NelsonGon提示之后：

library(rvest)
library(stringr)

test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <- test_url %>%
  html_node('#searchCountPages') %>%
  html_text() %>% 
  str_extract_all(., "\\d+") %>%
  gsub(",", "", .) %>% 
  unlist(.) %>% 
  as.integer() %>% 
  max()

我在抓取和提取值时遇到问题

1 个答案: