Python:xml.etree.ElementTree破坏xml格式

时间:2017-12-19 14:09:22

标签: python xml python-2.7 installshield

我有一个格式为XML的ISM文件(InstallShield项目)。

我需要更改文件中的一些属性,所以我使用了xml.etree.ElementTree(Python库)。

我可以找到值并更改它们,但是,在使用更新的值保存文件后,我无法在InstallShield中打开它(我得到一个文件无法打开的常规错误)。

当我将旧文件与新文件进行比较时,我发现除了我更改的值之外,新XML中缺少某些行,而某些行中的标记名称已更改。

为什么会这样?除了我所做的更改之外,还有什么可以使文件保持原样吗?我应该使用其他工具进行更改吗?

例如,以下部分显示在原始XML中:

    <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?xml-stylesheet type="text/xsl" href="is.xsl" ?>
<!DOCTYPE msi [
   <!ELEMENT msi   (summary,table*)>
   <!ATTLIST msi version    CDATA #REQUIRED>
   <!ATTLIST msi xmlns:dt   CDATA #IMPLIED
                 codepage   CDATA #IMPLIED
                 compression (MSZIP|LZX|none) "LZX">

   <!ELEMENT summary       (codepage?,title?,subject?,author?,keywords?,comments?,
                            template,lastauthor?,revnumber,lastprinted?,
                            createdtm?,lastsavedtm?,pagecount,wordcount,
                            charcount?,appname?,security?)>

   <!ELEMENT codepage      (#PCDATA)>
   <!ELEMENT title         (#PCDATA)>
   <!ELEMENT subject       (#PCDATA)>
   <!ELEMENT author        (#PCDATA)>
   <!ELEMENT keywords      (#PCDATA)>
   <!ELEMENT comments      (#PCDATA)>
   <!ELEMENT template      (#PCDATA)>
   <!ELEMENT lastauthor    (#PCDATA)>
   <!ELEMENT revnumber     (#PCDATA)>
   <!ELEMENT lastprinted   (#PCDATA)>
   <!ELEMENT createdtm     (#PCDATA)>
   <!ELEMENT lastsavedtm   (#PCDATA)>
   <!ELEMENT pagecount     (#PCDATA)>
   <!ELEMENT wordcount     (#PCDATA)>
   <!ELEMENT charcount     (#PCDATA)>
   <!ELEMENT appname       (#PCDATA)>
   <!ELEMENT security      (#PCDATA)>                            

   <!ELEMENT table         (col+,row*)>
   <!ATTLIST table
                name        CDATA #REQUIRED>

   <!ELEMENT col           (#PCDATA)>
   <!ATTLIST col
                 key       (yes|no) #IMPLIED
                 def       CDATA #IMPLIED>

   <!ELEMENT row            (td+)>

   <!ELEMENT td             (#PCDATA)>
   <!ATTLIST td
                 href       CDATA #IMPLIED
                 dt:dt     (string|bin.base64) #IMPLIED
                 md5        CDATA #IMPLIED>
]>
<msi version="2.0" xmlns:dt="urn:schemas-microsoft-com:datatypes" codepage="65001">

但是在新的XML中,它已经消失,而只有:

<msi xmlns:ns0="urn:schemas-microsoft-com:datatypes" codepage="65001" version="2.0">

存在更多差异,这只是一个例子。

我用来进行更改的python代码是

   tree = Et.parse(ism_file_path)
    root = tree.getroot()

    for attributes_group in root:
        for attribute in attributes_group:

            if attribute.tag == "revnumber":

                new_package_code = increment_hex_number(attribute.text)

                attribute.text = new_package_code

tree.write(ism_file_path)

谢谢!

2 个答案:

答案 0 :(得分:2)

最终我搬到了一个新的库 - lxml。 这个库与xml.etree.ElementTree相反,保留了所有标签的顺序,所以我做了完全相同的工作:

def modify_ism_file(ism_file_path):
    context = etree.iterparse(ism_file_path)
    for action, attributes_group in context:
        for attribute in attributes_group:
            if attribute.tag == "revnumber":
                print "Found package code. TAG = {0} TEXT = {1}".format(attribute.tag, attribute.text)
                new_package_code = increment_hex_number(attribute.text)
                print "New package code is {0}".format(new_package_code)
                attribute.text = new_package_code

obj_xml = etree.tostring(context.root, pretty_print=True, xml_declaration=True,   encoding="utf-8")

    with open(ism_file_path, "w") as f:
        f.write(obj_xml)

答案 1 :(得分:0)

首先,我想指出InstallShield有一个默认的编译器设置,即每次构建MSI时都会生成一个新的PackageCode。这是一个最佳实践,所以我真的不明白为什么你需要为这种情况编辑ISM。

我要指出的第二件事是ISM的RAW DTD XML格式很难处理。我倾向于使用COM自动化界面进行大多数动态创作,然后以二进制格式保存项目,这样我就可以将其编辑为关系数据库,就像我使用ORCa一样。 WiX C#/ DTF自定义操作具有LINQ支持,使这更容易。你甚至可以编写一个C#helper类并从python中调用它。然后,您可以在自动化界面中将其打开,并根据需要将其保存为XML格式。