这是一段要解析的HTML:
<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;" title="Alkali metals; Primordial; Solid">
37
<br />
<a title="Rubidium" href="/wiki/Rubidium">Rb</a>
</td>`
我可以使用xmlValue
获取值。
我得到的是:
text br a
"19" "" "K"
但是我希望在td
中获取属性的值,title
的属性,值是“碱金属;原始的;固体的”在{{1 {},a
的属性,值为“Rubidium”。
我怎样才能得到它?
答案 0 :(得分:3)
您可以使用xmlAttrs
或xmlGetAttr
(有关详细信息,请参阅?xmlAttrs
)。
html <- '<td style="text-align:center; color:black; background:#ff6666; border:2px solid #8811ff;" title="Alkali metals; Primordial; Solid">37<br /><a title="Rubidium" href="/wiki/Rubidium">Rb</a></td>'
td <- xmlRoot(xmlParse(html))
xmlAttrs(td)["title"]
# "Alkali metals; Primordial; Solid"
xmlAttrs(xmlChildren(td)$a)["title"]
# "Rubidium
# or
xmlGetAttr(td, "title")
# "Alkali metals; Primordial; Solid"