在R XML Package中,xmlParse和xmlTreeParse有什么区别?

时间:2013-12-19 14:40:18

标签: xml r xml-parsing

我想何时使用xmlParse函数与xmlTreeParse函数?此外,参数值useInternalNodes=TRUEasText=TRUE何时有用?

例如:

library("XML")
nct_url <- "http://clinicaltrials.gov/ct2/show/NCT00112281?resultsxml=true"
xml_doc <- xmlParse(nct_url, useInternalNodes=TRUE)

VS

doc <- xmlTreeParse(getURL(nct_url), useInternalNodes=TRUE)
top <- xmlRoot(doc)
top[["keyword"]]
xmlValue(top[["start_date"]])
xmlValue(top[["location"]])

人们似乎使用xmlTreeParse函数通过$ doc $ children $ ...遍历来获取非重复节点。但我不确定每种方法最好的时候都能理解。解析XML是几乎放弃R并学习Python的原因之一。在没有被迫买书的情况下缺乏傻瓜的例子。

1 个答案:

答案 0 :(得分:13)

这是使用XML包后的一些反馈。

  • xmlParsexmlTreeParse的版本,其中参数useInternalNodes设置为TRUE。
  • 如果您想使用xmlTreeParse获取R对象。如果您只想提取xml文档的部分部分,这可能不是非常有效和不必要的。
  • 如果您不想获得R对象,只需要一个c指针,请使用xmlParse。但是你应该知道一些xpath基础来操纵结果。
  • 如果您的文字不是文件或网址作为输入,请使用asText=TRUE

这里有一个例子,我展示了两个函数之间的区别:

txt <- "<doc>
          <el> aa </el>
       </doc>"
library(XML)
res <- xmlParse(txt,asText=TRUE)
res.tree <- xmlTreeParse(txt,asText=TRUE)

现在检查2个对象:

class(res)
[1] "XMLInternalDocument" "XMLAbstractDocument"
> class(res.tree)
[1] "XMLDocument"         "XMLAbstractDocument"

您看到res是内部文档。它是指向C对象的指针。 res.tree是一个R对象。你可以得到这样的属性:

 res.tree$doc$children
$doc
<doc>
 <el>aa</el>
</doc>

对于res,您应该使用有效的xpath请求以及其中一个函数(xpathApplyxpathSApplygetNodeSet)来检查它。例如:

xpathApply(res,'//el')

创建有效的Xml节点后,您可以应用xmlValuexmlGetAttr,...来提取节点信息。所以这两个陈述是等价的:

## we have already an R object, just apply xmlValue to the right child
xmlValue(res.tree$doc$children$doc)
## xpathSApply create an R object and pass it to
xpathSApply(res,'//el',xmlValue)