使用XML包提取字符串的一部分

时间:2017-02-06 08:49:52

标签: r xml

我正在使用XML R包。在对象' doc'中提取XML代码之后代码:

doc = htmlParse(html, asText=TRUE),

想象一下,我在' doc'中只有这个XML代码:

<p> interesting <a> not interesting </a> interesting2 </p>

我想只提取有趣的&#39;部分(即除了&#39; a&#39;部分之外)。

我尝试过类似的表达式:

interesting <- xpathSApply(doc, "//p", xmlValue)
显然,它提取了doc的所有内容。我怎样才能只提取对我感兴趣的文字串(即有趣的2&#39;)。

提前谢谢!!

1 个答案:

答案 0 :(得分:0)

//*[not(self::a)]/text()将排除a