简单地说,我试图解析一个HTML文档,其中包含以下标记:
<meta property="article:tag" content="myContent"/>
如何退回内容&#39;使用R?
标记的一部分我一直试图用XML软件包来做这件事,但我想我正在走向兔子洞......
答案 0 :(得分:1)
使用XML包,看起来我可以做类似的事情:
src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
print(unlist(tags)[["content"]])