如何只将HTML表格中的某些内容加载到R

时间:2017-12-03 19:26:13

标签: html r

所以我试图将这个网站上的表格放到R(这是作业),网站是https://www.4icu.org/top-universities-north-america/。当然,我试图这样做,看起来很好,但在变量"机构"它也是描述部分。

library(XML)
library(RCurl)
url2017<-getURL("https://www.4icu.org/top-universities-north-america/")
doc2017<-htmlParse(url2017,encoding="utf-8")
rank2017<-readHTMLTable(doc2017, header=TRUE, which=1)

因此,它不仅仅是大学名称,而且还有简短的介绍。我怎样才能将大学名称变成R(我试图找到一个只包含名称的循环但是没有工作)。 谢谢你的帮助。

1 个答案:

答案 0 :(得分:0)

我从未设法以可靠的方式使用XML,我觉得这很乏味。 最好使用rvest,然后使用Selector Gadget查找CSS选择器。

library(rvest)

URL <- "https://www.4icu.org/top-universities-north-america/"
vec <- read_html(URL) %>% html_nodes(".text-left .lead") %>% html_text()
head(vec, 3)
# " Massachusetts Institute of Technology" 
# " Stanford University" 
# " Harvard University"