Webscraping:数据框未填充

时间:2017-06-29 18:36:13

标签: r web-scraping

所以我希望从TransferMarkt获取数据,特别是英超联赛中球员的名字和网址。我这样做是先刮掉联盟中所有球队的网址,然后通过这些球队中的各个球员。我遇到的问题是数据没有保存到帧中。当我试图找到行数(no.of.rows)时,它仍然为零,所以我尝试打印框架(Catcher1)以查看发生了什么,它是空的!任何帮助将不胜感激,谢谢。

library(rvest)

URL <- "http://www.transfermarkt.com/premier-league/startseite/wettbewerb/GB1"

WS <- read_html(URL)

URLs <- WS %>% html_nodes(".hide-for-pad .vereinprofil_tooltip") %>% html_attr("href") %>% as.character()
URLs <- paste0("http://www.transfermarkt.com",URLs)

Catcher1 <- data.frame(Player=character(),P_URL=character())

for (i in URLs) {
  WS1 <- read_html(i)
  Player <- WS1 %>% html_nodes("#yw1 .tooltipstered")%>%html_text()%>%as.character()
  P_URL <- WS1 %>% html_nodes("#yw1 .tooltipstered")%>%html_attr("href")%>%as.character()
  temp <- data.frame(Player,P_URL)
  Catcher1 <- rbind(Catcher1,temp)
  cat("*")
}

print(Catcher1)
no.of.rows <- nrow(Catcher1)
odd_indexes<-seq(1,no.of.rows,2)
Catcher1 <- data.frame(Catcher1[odd_indexes,])

Catcher1$P_URL <- paste0("http://www.transfermarkt.com",Catcher1$P_URL)

1 个答案:

答案 0 :(得分:1)

我没有看到catalina.sh jpda start ID,但是它有一个特定的CSS选择器来获得你想要的东西(虽然我不知道,因为我没有参与这种类型的体育刮痧,也没有关注这项运动)。

#yw1