我试图从Indeed.com的工作委员会的表格中获取公司和工作清单。
我正在使用rbase包使用URL Base http://www.indeed.com/jobs?q=proprietary+trader&
install.packages("gtools")
install.packages('rvest")
library(rvest)
library(gtools)
mydata = read.csv("setup.csv", header=TRUE)
url_base <- "http://www.indeed.com/jobs?q=proprietary+trader&"
names <- mydata$Page
results<-data.frame()
for (name in names){
url <-paste0(url_base,name)
title.results <- url %>%
html() %>%
html_nodes(".jobtitle") %>%
html_text()
company.results <- url %>%
html() %>%
html_nodes(".company") %>%
html_text()
results <- smartbind(company.results, title.results)
results3<-data.frame(company=company.results, title=title.results)
}
new <- results(Company=company, Title=title)
&#13;
然后循环连接。由于某种原因,它并没有抓住所有的工作,混合公司和工作。
答案 0 :(得分:0)
可能是因为您对页面发出了两个单独的请求。您应该将代码的中间部分更改为:
page <- url %>%
html()
title.results <- page %>%
html_nodes(".jobtitle") %>%
html_text()
company.results <- page %>%
html_nodes(".company") %>%
html_text()
当我这样做时,它似乎给了我10个工作和匹配的公司。你能给出一个不起作用的查询URL的例子吗?