Python:使用ElementTree读取和写入命名空间的XML

时间:2012-02-29 14:37:46

标签: python elementtree

此XML文件名为example.xml

<?xml version="1.0"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

  <modelVersion>14.0.0</modelVersion>
  <groupId>.com.foobar.flubber</groupId>
  <artifactId>uberportalconf</artifactId>
  <version>13-SNAPSHOT</version>
  <packaging>pom</packaging>
  <name>Environment for UberPortalConf</name>
  <description>This is the description</description>    
  <properties>
      <birduberportal.version>11</birduberportal.version>
      <promotiondevice.version>9</promotiondevice.version>
      <foobarportal.version>6</foobarportal.version>
      <eventuberdevice.version>2</eventuberdevice.version>
  </properties>
  <!-- A lot more here, but as it is irrelevant for the problem I have removed it -->
</project>

如果我使用ElementTree加载上面的example.xml文件并打印根节点:

>>> from xml.etree import ElementTree
>>> tree = ElementTree.parse('example.xml')
>>> print tree.getroot()
<Element '{http://maven.apache.org/POM/4.0.0}project' at 0x26ee0f0>

我看到Element还包含名称空间http://maven.apache.org/POM/4.0.0

我如何:

  1. 获取foobarportal.version文本,将其增加一个并重新编写XML文件,同时保留文档在加载时的命名空间,而不是更改整体XML布局。
  2. 使用任何命名空间加载它,而不仅仅是http://maven.apache.org/POM/4.0.0。我仍然不想剥离命名空间,因为我希望XML保持不变,除了更改上面的 1 中的foobarportal.version
  3. 目前的方法不是知道XML,而是满足上面的 1 2

    1. Grep for <foobarportal.version>(.*)</foobarportal.version>
    2. 获取匹配组的内容,然后将其增加一个
    3. 写回来。
    4. 拥有XML感知解决方案会更好,因为它会更强大。 ElementTree的XML名称空间处理使其更加复杂。

1 个答案:

答案 0 :(得分:2)

如果你的问题很简单:“如何通过命名空间元素名称进行搜索”,那么答案是lxml理解{namespace}语法,所以你可以这样做:

tree.getroot().find('{http://maven.apache.org/POM/4.0.0}project')