使用XML包解析id和类的HTML元素

时间:2015-01-06 12:39:58

标签: r html-parsing

是否可以通过HTMLInternalDocumentid信息从class对象中提取元素?例如,让我们拿一份文件:

<!DOCTYPE html>
<html>
<head>
    <title>R XML test</title>
</head>
<body>
<div id="obj1">
    <p id="txt1">quidquid</p>
    <p id="txt2">Latine dictum</p>
</div>
<div class="mystuff">
    <p>sit altum</p>
    <p>videtur</p>
</div>
</body>
</html>

读入R如下:

require(XML)
file <- "C:/filepath/index.html"
datain <- htmlTreeParse(readLines(file), useInternalNodes = TRUE)

我想提取元素id='txt2'class='mystuff'的内容。

我尝试了各种方法但没有成功,而且它们似乎都在树上迭代,这是非常费力的。是否有使用class / id的快捷方法?我有一个想法,它可能涉及使用第一个getNodeSet,然后使用一些应用方法(例如xmlApply&amp; xmlAttrs),但我尝试过的任何工作都没有。感谢任何指针。

1 个答案:

答案 0 :(得分:4)

试试这个例子:

id_or_class_xp <- "//p[@id='txt2']//text() | //div[@class='mystuff']//text()"
xpathSApply( doc,id_or_class_xp,xmlValue)

[1] "Latine dictum" "\n    "        "sit altum"     "\n    "        "videtur"       "\n" 

doc是:

doc <- htmlParse('<!DOCTYPE html>
<html>
<head>
    <title>R XML test</title>
</head>
<body>
<div id="obj1">
    <p id="txt1">quidquid</p>
    <p id="txt2">Latine dictum</p>
</div>
<div class="mystuff">
    <p>sit altum</p>
    <p>videtur</p>
</div>
</body>
</html>',asText=T)