我有一个需要解析的XML文件。我无法控制文件的格式,也无法更改它。
该文件使用前缀(称之为a
),但它没有为任何地方定义该前缀的命名空间。我似乎无法使用xpath
来查询具有a
命名空间的节点。
这是xml文档的内容
<?xml version="1.0" encoding="UTF-8"?>
<a:root>
<a:thing>stuff0</a:thing>
<a:thing>stuff1</a:thing>
<a:thing>stuff2</a:thing>
<a:thing>stuff3</a:thing>
<a:thing>stuff4</a:thing>
<a:thing>stuff5</a:thing>
<a:thing>stuff6</a:thing>
<a:thing>stuff7</a:thing>
<a:thing>stuff8</a:thing>
<a:thing>stuff9</a:thing>
</a:root>
我正在使用Nokogiri查询文档:
doc = Nokogiri::XML(open('text.xml'))
things = doc.xpath('//a:thing')
未能发出以下错误:
Nokogiri::XML::XPath::SyntaxError: Undefined namespace prefix: //a:thing
根据我的研究,我发现我可以在xpath
方法中为前缀指定命名空间:
things = doc.xpath('//a:thing', a: 'nobody knows')
这将返回一个空数组。
获得我需要的节点的最佳方式是什么?
答案 0 :(得分:4)
问题是XML文档中没有正确定义命名空间。因此,Nokogiri将节点名称视为“a:root”而不是“a”是命名空间而“root”是节点名称:
xml = %Q{
<?xml version="1.0" encoding="UTF-8"?>
<a:root>
<a:thing>stuff0</a:thing>
<a:thing>stuff1</a:thing>
</a:root>
}
doc = Nokogiri::XML(xml)
puts doc.at_xpath('*').node_name
#=> "a:root"
puts doc.at_xpath('*').namespace
#=> ""
解决方案1 - 使用冒号
指定节点名称一种解决方案是搜索名称为“a:thing”的节点。您无法执行//a:thing
,因为XPath会将“a”视为命名空间。你可以通过//*[name()="a:thing"]
:
xml = %Q{
<?xml version="1.0" encoding="UTF-8"?>
<a:root>
<a:thing>stuff0</a:thing>
<a:thing>stuff1</a:thing>
</a:root>
}
doc = Nokogiri::XML(xml)
things = doc.xpath('//*[name()="a:thing"]')
puts things
#=> <a:thing>stuff0</a:thing>
#=> <a:thing>stuff1</a:thing>
解决方案2 - 修改XML文档以定义命名空间
另一种解决方案是修改您正确定义命名空间的XML文件。然后,文档将按预期方式使用命名空间:
xml = %Q{
<?xml version="1.0" encoding="UTF-8"?>
<a:root>
<a:thing>stuff0</a:thing>
<a:thing>stuff1</a:thing>
</a:root>
}
xml.gsub!('<a:root>', '<a:root xmlns:a="foo">')
doc = Nokogiri::XML(xml)
things = doc.xpath('//a:thing')
puts things
#=> <a:thing>stuff0</a:thing>
#=> <a:thing>stuff1</a:thing>