Question

简单地说，我试图解析一个HTML文档，其中包含以下标记：

<meta property="article:tag" content="myContent"/>

如何退回内容＆＃39;使用R？

标记的一部分

我一直试图用XML软件包来做这件事，但我想我正在走向兔子洞......

Answer 1

使用XML包，看起来我可以做类似的事情：

src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
print(unlist(tags)[["content"]])

使用R提取HTML标记的部分内容

1 个答案: