Question

我试图从Indeed.com的工作委员会的表格中获取公司和工作清单。

我正在使用rbase包使用URL Base http://www.indeed.com/jobs?q=proprietary+trader&

＆＃13;

install.packages("gtools")
install.packages('rvest")
library(rvest)
library(gtools)



mydata = read.csv("setup.csv", header=TRUE)

url_base <- "http://www.indeed.com/jobs?q=proprietary+trader&"
names <- mydata$Page


results<-data.frame()
for (name in names){
url <-paste0(url_base,name)
title.results <- url %>%
   html() %>%
   html_nodes(".jobtitle") %>%
   html_text()

company.results <- url %>%
   html() %>%
   html_nodes(".company") %>%
   html_text()


results <- smartbind(company.results, title.results)
results3<-data.frame(company=company.results, title=title.results)

}

new <- results(Company=company, Title=title)

＆＃13;

然后循环连接。由于某种原因，它并没有抓住所有的工作，混合公司和工作。

Answer 1

可能是因为您对页面发出了两个单独的请求。您应该将代码的中间部分更改为：

page <- url %>%
   html()

title.results <- page %>%
   html_nodes(".jobtitle") %>%
   html_text()

company.results <- page %>%
   html_nodes(".company") %>%
   html_text()

当我这样做时，它似乎给了我10个工作和匹配的公司。你能给出一个不起作用的查询URL的例子吗？

R - 工作板的Web Scrape

1 个答案: