url <- "http://www.officedepot.com/a/browse/technology/N=5+9021/;jsessionid=00000a2ZDz-8D4MKY5wMPuithDX:17h4h7bfo"
library(RCurl)
library(XML)
html <- getURL(url[u])
trim <- function (x) gsub("^\\s+|\\s+$", "", x)
docs <- htmlParse(html, asText=TRUE)
data <-xpathApply(docs, "//*[not(self::script)]/text()",xmlValue)
data <- trim(gsub('\t|\n',' ',unlist(data)))
data <- data[data!='']
head(data)
上面的代码成功地从任何网址中提取了所有文字,但同时提取了文字,我得到了一些风格标记数据
喜欢,请参阅下面的样式标记
<style>
.dat_wrapper {
visibility: hidden;
}
.cke_widget_element .dat_wrapper {
visibility: visible;
}
使用上面提到的XPATH expresseion从此标记中提取文本,查看数据输出[2]
> data[2]
[1]&#34; .dat_wrapper {visibility:hidden;} .cke_widget_element .dat_wrapper {visibility:visible;}&#34;
我不想要这样的数据。请有人帮助我克服这一点。
答案 0 :(得分:1)
我假设您要提取“技术”部分中的所有信息,并详细说明每种产品?
如果是这样,解决方案将是直截了当的,首先解析网址然后提取内容。现在你的代码和查询没有任何意义。