如何使用XPATH从html中提取文本

时间:2015-06-24 14:56:31

标签: r xpath

url <- "http://www.officedepot.com/a/browse/technology/N=5+9021/;jsessionid=00000a2ZDz-8D4MKY5wMPuithDX:17h4h7bfo"

library(RCurl)
library(XML)
html <- getURL(url[u])

trim <- function (x) gsub("^\\s+|\\s+$", "", x)
docs <- htmlParse(html, asText=TRUE)
data <-xpathApply(docs, "//*[not(self::script)]/text()",xmlValue)
data <- trim(gsub('\t|\n',' ',unlist(data)))
data <- data[data!='']
head(data)

上面的代码成功地从任何网址中提取了所有文字,但同时提取了文字,我得到了一些风格标记数据

喜欢,请参阅下面的样式标记

<style>
    .dat_wrapper {
      visibility: hidden;
    }
    .cke_widget_element .dat_wrapper {
      visibility: visible;
    }

使用上面提到的XPATH expresseion从此标记中提取文本,查看数据输出[2]

> data[2]

[1]&#34; .dat_wrapper {visibility:hidden;} .cke_widget_element .dat_wrapper {visibility:visible;}&#34;

我不想要这样的数据。请有人帮助我克服这一点。

1 个答案:

答案 0 :(得分:1)

我假设您要提取“技术”部分中的所有信息,并详细说明每种产品?

如果是这样,解决方案将是直截了当的,首先解析网址然后提取内容。现在你的代码和查询没有任何意义。