使用R正确提取锚元素的内部文本

时间:2013-11-07 03:43:40

标签: r xpath

我正在使用R来抓取此链接中的链接标题www.jamesaltucher.com/sitemap.xml

这是我的代码。

library(XML)
library(RCurl)
url.link <- 'http://www.jamesaltucher.com/sitemap.xml'
blog <- getURL(url.link)
blog          <- htmlParse(blog, encoding = "UTF-8")
titles  <- xpathSApply (blog ,"//a",xmlValue)             ## titles

我的titles是一个空列表。

见截图:

enter image description here

我是否错误地使用了xpath?

1 个答案:

答案 0 :(得分:1)

是。您正在寻找loc元素,而不是a元素。

titles  <- xpathSApply (html ,"//loc",xmlValue)