如何获取HTML / XML中的属性?

时间:2012-09-02 08:26:14

标签: xml r web-scraping

这是一段要解析的HTML:

<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;"   title="Alkali metals; Primordial; Solid">
37  
<br />  
<a title="Rubidium" href="/wiki/Rubidium">Rb</a>  
</td>`  

我可以使用xmlValue获取值。 我得到的是:

text   br    a   
"19"   ""  "K"   

但是我希望在td中获取属性的值,title的属性,值是“碱金属;原始的;固体的”在{{1 {},a的属性,值为“Rubidium”

我怎样才能得到它?

1 个答案:

答案 0 :(得分:3)

您可以使用xmlAttrsxmlGetAttr(有关详细信息,请参阅?xmlAttrs)。

html <- '<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;" title="Alkali metals; Primordial; Solid">37<br /><a title="Rubidium" href="/wiki/Rubidium">Rb</a></td>'
td <- xmlRoot(xmlParse(html))
xmlAttrs(td)["title"]
# "Alkali metals; Primordial; Solid"
xmlAttrs(xmlChildren(td)$a)["title"]
# "Rubidium

# or
xmlGetAttr(td, "title")
# "Alkali metals; Primordial; Solid"