使用R和XPath获取单元格表的文本

时间:2013-05-31 09:49:13

标签: r xpath

我是R和XPath的初学者, 我正在尝试在CRAN中抓取物体以了解陡坡是如何工作的。

我希望从http://cran.r-project.org/web/packages/XML/index.html

的包中获得依赖关系

元素是“bitops,RCurl”

XPath应该是这个/html/body/table/tbody/tr[4]/td[2]

这是我的R代码

urlContent <- htmlParse("http://cran.r-project.org/web/packages/abc/index.html")
xpathSApply(doc=urlContent,path="/html/body/table/tbody/tr[4]/td[2]")

但是我无法理解问题出在哪里,你能帮助我吗?

1 个答案:

答案 0 :(得分:1)

另一个聪明的选择是使用readHTMLTable并避免写xpath

这里我正在阅读第一个表,而不是访问第一列等于Suggests:的行。

library(XML)
dat <- readHTMLTable('http://cran.r-project.org/web/packages/XML/index.html')[[1]]
dat[dat[,1] == "Suggests:",]
Version:      3.96-1.1
3 Suggests: bitops, RCurl