自动从两个或多个网页抓取网页

时间:2018-06-16 01:04:07

标签: r web screen-scraping

我正在尝试自动从多个页面进行网页抓取。我已经为一个网页编写了代码:

html <- 
read_html("https://www.transfermarkt.com/argentinien/startseite/verein/3437")
pl.info <- html_nodes(html, "#yw1 td")
length(pl.info)
pl.info1<- html_text(pl.info)
pl.info1<- matrix(pl.info1, ncol=9, nrow=length(pl.info1)/9, byrow=T)
pl.info1<- pl.info1[, c(6,5,9)]
pl.info1<- as.data.frame(pl.info1)
library(stringr)
pl.info1$V3<- gsub("[Mill//.€ ]*", "" , pl.info1$V3)
pl.info1$V3<- str_trim(pl.info1$V3)
pl.info1$V3<- pl.info1$V3<- gsub(",", "." , pl.info1$V3)
str(pl.info1)
pl.info1$V3<- (as.numeric(pl.info1$V3))

html <- 
read_html("https://www.transfermarkt.com/argentinien/startseite/verein/3437")
country <- html_nodes(html, ".dataName b")
length(country)
country1<- html_text(country)
land1<- rep(country1, times= nrow(pl.info1))
pl.info1<- as.data.frame(cbind(country1, pl.info1))
names(pl.info1)<- c("country", "pl.name", "position", "m.value [Mill]")

但是如何自动为网页矢量执行此操作?例如:

links.transfermarkt <- c(
  "https://www.transfermarkt.com/argentinien/startseite/verein/3437",
  "https://www.transfermarkt.com/australien/startseite/verein/3433",
  "https://www.transfermarkt.com/belgien/startseite/verein/3382")

我用for循环尝试了它,但没有成功。

0 个答案:

没有答案