网页刮痧在维基网球桌上使用Rvest

时间:2016-08-19 09:35:34

标签: r web-scraping rvest

在这里,我是R的初学者。我正在努力学习更多有关rvest以及如何从网上学习的知识。这是维基页面(https://en.wikipedia.org/wiki/Andy_Murray),下面是我要转移到R的表格。

table that i want

使用CSS Selector,我发现特定的表是“.wikitable”。在关于其他网页的一些教程之后,这里是我使用的代码:

library(rvest)
tennis <- read_html("https://en.wikipedia.org/wiki/Andy_Murray")
trial <- tennis %>% html_nodes(".wikitable") %>% html_table(fill = T)
trial

我无法将结果与我想要的表格隔离开来。有人可以教我怎么样?另一件事,管道做什么(%&gt;%)?

1 个答案:

答案 0 :(得分:3)

你快到了。你提取的是一个列表。要获得所需的元素,您需要使用索引:

trial[[2]]

要进一步清洁它,请使用:

df <- trial[[2]]
df <- df[-1,]
df[,17:20] <- NULL

enter image description here

%>%被称为magrittr / dplyr包中的管道。更多信息here