如何在python中使用prettyprinting xml时缩进属性?

时间:2012-10-13 17:56:26

标签: python lxml pretty-print

假设我有这样的XML:

 <graph label="Test" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:cy="http://www.cytoscape.org" xmlns="http://www.cs.rpi.edu/XGMML"  directed="1">
    <foo>...</foo>
 </graph>

第一个元素名称及其所有属性都出现在一行中。

我已经看过如何使用lxml打印元素树,代码如下:

from lxml import etree
 ...
def prettyPrintXml(filePath):
    assert filePath is not None
    parser = etree.XMLParser(resolve_entities=False, remove_blank_text=True, 
                             strip_cdata=False)
    document = etree.parse(filePath, parser)
    print(etree.tostring(document, pretty_print=True, encoding='utf-8'))

...但是使用它,每个元素都出现在一行上。

是否有一种神奇的咒语告诉漂亮的打印机在元素属性之间插入换行符,例如,行长度不超过80个字符?

我希望结果看起来像这样:

<graph label="Test"
       xmlns:dc="http://purl.org/dc/elements/1.1/"
       xmlns:xlink="http://www.w3.org/1999/xlink"
       xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
       xmlns:cy="http://www.cytoscape.org"
       xmlns="http://www.cs.rpi.edu/XGMML"  directed="1">
  <foo>...</foo>
</graph>

ps:我不想诉诸subprocessxmllint

1 个答案:

答案 0 :(得分:3)

lxml内置了一个漂亮的打印功能:here's a tutorial,它描述了几种打印xml的方法。但它有一些limitations(xml规范中的限制,根据lxml)。

This stackoverflow question有几个答案,或多或少hacky解决方案漂亮的打印xml,我认为你可以建立至少基于正则表达式的答案,以满足您的需求。

Fredrik LundhElementTree成名)对printing xml有一个非常低级别的描述,你也可以自定义为换行和缩进属性。