使用R提取HTML标记的部分内容

时间:2015-03-23 08:32:51

标签: html r parsing tags

简单地说,我试图解析一个HTML文档,其中包含以下标记:

<meta property="article:tag" content="myContent"/>

如何退回内容&#39;使用R?

标记的一部分

我一直试图用XML软件包来做这件事,但我想我正在走向兔子洞......

1 个答案:

答案 0 :(得分:1)

使用XML包,看起来我可以做类似的事情:

src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
print(unlist(tags)[["content"]])