rvest不提取自闭合的xml节点

时间:2016-03-22 23:10:49

标签: xml r web-scraping rvest httr

尝试解析此xml文件: source of Assets

rvest / xml2接缝无法正确识别节点:

require(rvest) #which uses xml2 internally
doc <- read_xml("http://data.fcc.gov/api/block/find?latitude=48.9905&longitude=-122.2733&showall=false")
> doc
{xml_document}
<Response>
[1] <Block FIPS="530730102002091"/>
[2] <County FIPS="53073" name="Whatcom"/>
[3] <State FIPS="53" code="WA" name="Washington"/>

尝试获取我所做的 County 节点 - 导致错误(无匹配)的原因

doc %>% xml_node("County") # Error: No matches

我也通过read_htmlhttr::GETread_htmlread_xml相结合来尝试... 任何想法

P.S。:这个例子来自这里:http://data.fcc.gov/api/block/find?latitude=48.9905&longitude=-122.2733&showall=false。我试图通过rvest

解决这个问题

1 个答案:

答案 0 :(得分:5)

该doc有一个命名空间xmlns,您可以使用xml_ns检查它,并在xpath中使用前缀,

xml_find_one(doc, "//d1:County", xml_ns(doc))