使lxml.objectify忽略xml名称空间?

时间:2010-06-23 16:41:52

标签: python xml lxml xml-namespaces

所以我要处理一些看起来像这样的xml:

<ns2:foobarResponse xmlns:ns2="http://api.example.com">
  <duration>206</duration>
  <artist>
    <tracks>...</tracks>
  </artist>
</ns2:foobarResponse>

我找到了lxml和它的objectify模块,它允许你以pythonic的方式遍历xml文档,就像字典一样。
问题是:每次尝试访问元素时都使用伪造的xml命名空间,如下所示:

from lxml import objectify

tree = objectify.fromstring(xml)
print tree.artist
# ERROR: no such child: {http://api.example.com}artist

它正在尝试使用父命名空间访问<artist>,但标记不使用ns。

任何想法如何解决这个问题?感谢

2 个答案:

答案 0 :(得分:7)

根据lxml.objectify documentation,属性查找默认使用其父元素的命名空间。

你可能希望工作的是:

print tree["{}artist"]
如果你的孩子有一个非空的命名空间(例如“{http://foo/}艺术家”),那么像这样的QName语法会有效,但不幸的是,它看起来像当前的源代码将空命名空间视为< em> no 名称空间,因此所有objectify的查找优点都将有助于用父命名空间替换空命名空间,而且你运气不好。

这是一个错误(“{}艺术家”应该工作),或者是为lxml人提交的增强请求。

目前,最好的办法可能是:

print tree.xpath("artist")

我不清楚你在这里使用xpath会有多大的性能影响,但这肯定有效。

答案 1 :(得分:3)

仅供参考:请注意,自lxml 2.3以来,这可以正常工作。

来自lxml更改日志:

  

”   [...]

     

2.3(2011-02-06)添加的功能

     
      
  • 在寻找孩子时,lxml.objectify将'{} tag'视为含义   空命名空间,而不是父命名空间。
  •   
     

[...]“

行动中:

>>> xml = """<ns2:foobarResponse xmlns:ns2="http://api.example.com">
...   <duration>206</duration>
...   <artist>
...     <tracks>...</tracks>
...   </artist>
... </ns2:foobarResponse>"""
>>> tree = objectify.fromstring(xml)
>>> print tree['{}artist']
artist = None [ObjectifiedElement]
    tracks = '...' [StringElement]
>>>