我正在使用XML R包。在对象' doc'中提取XML代码之后代码:
doc = htmlParse(html, asText=TRUE),
想象一下,我在' doc'中只有这个XML代码:
<p> interesting <a> not interesting </a> interesting2 </p>
我想只提取有趣的&#39;部分(即除了&#39; a&#39;部分之外)。
我尝试过类似的表达式:
interesting <- xpathSApply(doc, "//p", xmlValue)
显然,它提取了doc的所有内容。我怎样才能只提取对我感兴趣的文字串(即有趣的2&#39;)。
提前谢谢!!
答案 0 :(得分:0)
//*[not(self::a)]/text()
将排除a