因此,我尝试通过网络抓 我有这组代码
base_url <- "https://www.indeed.com/jobs?q="
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <-test_url %>%
html_node('#searchCountPages') %>%
html_text()
我正在尝试将一个工作的总数作为一个整数,但是存在多个问题。在上面的代码中,total_jobs是一个字符向量(我认为),它类似于“第1,128个职位的第1页”
在这个示例中,我基本上试图将1128的值提取为整数,但是我不能有人帮助我吗?
答案 0 :(得分:0)
在@NelsonGon提示之后:
library(rvest)
library(stringr)
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <- test_url %>%
html_node('#searchCountPages') %>%
html_text() %>%
str_extract_all(., "\\d+") %>%
gsub(",", "", .) %>%
unlist(.) %>%
as.integer() %>%
max()