在R中从此网络中提取有价值的参与者

时间:2019-03-16 11:12:10

标签: r screen-scraping

我只是想知道是否可以从此页面提取数据:

https://www.jornadaperfecta.com/

我只希望R吸引每位玩家(从“ equipo”标签或从此处进入:https://www.jornadaperfecta.com/jugadores/?pagina=1),并将“ Valor de mercado”中的数字添加到玩家姓名旁边的表格中。

我不知道这是否可能。

对不起,我的英语。

我是通过这种方式得到的,但是它太慢了:

library(rvest)

urls <- list("https://www.jornadaperfecta.com/equipo/alaves/", "https://www.jornadaperfecta.com/equipo/athletic/" , "https://www.jornadaperfecta.com/equipo/atletico/" , "https://www.jornadaperfecta.com/equipo/barcelona/" , "https://www.jornadaperfecta.com/equipo/betis/" , "https://www.jornadaperfecta.com/equipo/celta/" , "https://www.jornadaperfecta.com/equipo/eibar/", "https://www.jornadaperfecta.com/equipo/espanyol/", "https://www.jornadaperfecta.com/equipo/getafe/", "https://www.jornadaperfecta.com/equipo/girona/", "https://www.jornadaperfecta.com/equipo/huesca/", "https://www.jornadaperfecta.com/equipo/leganes/" ,"https://www.jornadaperfecta.com/equipo/levante/" , "https://www.jornadaperfecta.com/equipo/rayo_vallecano/", "https://www.jornadaperfecta.com/equipo/real_madrid/", "https://www.jornadaperfecta.com/equipo/real_sociedad/", "https://www.jornadaperfecta.com/equipo/sevilla/" ,"https://www.jornadaperfecta.com/equipo/valencia/", "https://www.jornadaperfecta.com/equipo/valladolid/","https://www.jornadaperfecta.com/equipo/villarreal/")

equipos <- vector("list", length = 20)

for (i in 1:length(urls)){
  url <- urls[[i]]
  tmp <- read_html(url)
  links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
  equipos[[i]] <- data.frame(matrix(NA, nrow=length(links_jugadores), ncol=2))
}
for (i in 1:20){
  url <- urls[[i]]
  tmp <- read_html(url)
  links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
  for (j in 1:length(links_jugadores)){
  urltmp <- links_jugadores[j]
  datatmp <- read_html(urltmp)
  equipo[j,1] <- datatmp %>% html_nodes("[itemprop=name]") %>% html_text() %>% "["(2)
  equipo[j,2] <- datatmp  %>% html_nodes("[itemprop=netWorth]") %>% html_text()
  equipos[[i]] <- equipo
  }
}

0 个答案:

没有答案