使用R仅从HTML页面中读取相关文本

时间:2015-10-22 14:31:41

标签: r web-scraping

有没有办法只使用R访问维基百科上的文本内容。相当于jSoup的东西,如本帖子所示,在堆栈上Extraction of text using: Jsoup

感谢。

1 个答案:

答案 0 :(得分:2)

来自here

# load packages
library(RCurl)
library(XML)

# download html
html <- getURL("https://en.wikipedia.org/wiki/Main_Page", followlocation = TRUE)

# parse html
doc = htmlParse(html, asText=TRUE)
plain.text <- xpathSApply(doc, "//p", xmlValue)
cat(paste(plain.text, collapse = "\n"))