如何使用R创建网页中所有句子的字符向量

时间:2014-03-27 01:45:19

标签: r webpage text-mining text-analysis

我正在使用R来' webscrape'一个网页,并对其内容进行文本挖掘。我需要做的是在R中获取一个字符向量,其中向量中的每个元素都是来自网页的句子。有没有办法识别html文档中的单个句子?以某种方式检测在时间段之前和之后发生的任何事情。

我这样做是为了获取原始网址数据

library(XML)
library(RCurl)
url.link <- 'http://www.webpage.com'
webpage <- getURL(url.link)
webpage <- htmlParse(webpage, encoding = "UTF-8")
titles <- xpathSApply (webpage ,"//loc",xmlValue) 

然后我从每个页面中提取文字:

traverse_each_page <- function(x){
tmp <- htmlParse(getURI(x))
xpathSApply(tmp, '//div[@id="mainContent"]', xmlValue)
}

pages <- sapply(titles[2:3], traverse_each_page)

但是我收到以下错误,无法继续:

函数错误(type,msg,asError = TRUE):url malformed来自:.rs.breakOnError(TRUE)

0 个答案:

没有答案