我只是想知道是否可以从此页面提取数据:
https://www.jornadaperfecta.com/
我只希望R吸引每位玩家(从“ equipo”标签或从此处进入:https://www.jornadaperfecta.com/jugadores/?pagina=1),并将“ Valor de mercado”中的数字添加到玩家姓名旁边的表格中。
我不知道这是否可能。
对不起,我的英语。
我是通过这种方式得到的,但是它太慢了:
library(rvest)
urls <- list("https://www.jornadaperfecta.com/equipo/alaves/", "https://www.jornadaperfecta.com/equipo/athletic/" , "https://www.jornadaperfecta.com/equipo/atletico/" , "https://www.jornadaperfecta.com/equipo/barcelona/" , "https://www.jornadaperfecta.com/equipo/betis/" , "https://www.jornadaperfecta.com/equipo/celta/" , "https://www.jornadaperfecta.com/equipo/eibar/", "https://www.jornadaperfecta.com/equipo/espanyol/", "https://www.jornadaperfecta.com/equipo/getafe/", "https://www.jornadaperfecta.com/equipo/girona/", "https://www.jornadaperfecta.com/equipo/huesca/", "https://www.jornadaperfecta.com/equipo/leganes/" ,"https://www.jornadaperfecta.com/equipo/levante/" , "https://www.jornadaperfecta.com/equipo/rayo_vallecano/", "https://www.jornadaperfecta.com/equipo/real_madrid/", "https://www.jornadaperfecta.com/equipo/real_sociedad/", "https://www.jornadaperfecta.com/equipo/sevilla/" ,"https://www.jornadaperfecta.com/equipo/valencia/", "https://www.jornadaperfecta.com/equipo/valladolid/","https://www.jornadaperfecta.com/equipo/villarreal/")
equipos <- vector("list", length = 20)
for (i in 1:length(urls)){
url <- urls[[i]]
tmp <- read_html(url)
links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
equipos[[i]] <- data.frame(matrix(NA, nrow=length(links_jugadores), ncol=2))
}
for (i in 1:20){
url <- urls[[i]]
tmp <- read_html(url)
links_jugadores <- tmp %>% html_nodes("[itemprop=name]") %>% html_nodes("a") %>% html_attr("href")
for (j in 1:length(links_jugadores)){
urltmp <- links_jugadores[j]
datatmp <- read_html(urltmp)
equipo[j,1] <- datatmp %>% html_nodes("[itemprop=name]") %>% html_text() %>% "["(2)
equipo[j,2] <- datatmp %>% html_nodes("[itemprop=netWorth]") %>% html_text()
equipos[[i]] <- equipo
}
}