使用minidom读取和写入XML中的特殊字符

时间:2015-04-01 01:51:58

标签: python xml special-characters minidom

我正在尝试在称为对象的元素中编写和读回一组字符串,这些元素有两个属性name(简单字符串)和body正文是一个带有特殊字符的字符串“\ n “和”\“我正在使用以下代码来编写xml文件:

from xml.dom.minidom import Document

doc = Document()
root = doc.createElement('data')
doc.appendChild(root)
#create a scene
scene = doc.createElement('scene')
root.appendChild(scene)
#add object element
object = doc.createElement('object')
object.setAttribute('name', 'obj1')

txt= 'Text\nsome text\nanother one\\and so on\n'
object.setAttribute('body',txt )
scene.appendChild(object)

#write to a file
file_handle = open("filename.xml","wb")
file_handle.write(bytes(doc.toprettyxml(indent='\t'), 'UTF-8'))
file_handle.close()

并生成此文件

<?xml version="1.0" ?>
<data>
    <scene>
        <object body="Text
some text
another one\and so on
" name="obj1"/>
    </scene>
</data>

和解析:

filepath = 'file.xml'
dom = minidom.parse(filepath)
scenes =dom.getElementsByTagName('scene')
for scene in scenes:
    txt_objs =scene.getElementsByTagName('object')
    for obj in txt_objs:
        obj_name = obj.getAttribute('name')
        obj_body = obj.getAttribute('body')
        print(obj_name,"  ",obj_body)

解析器的输出与存储的换行特殊字符丢失不一致,如何保持与输入相同的输出

#parser output
obj1    Text some text another one\and so on

使用特殊字符存储和检索字符串的正确方法是什么?

1 个答案:

答案 0 :(得分:1)

minidom演示的行为与W3C recommendation对齐。请参阅以下讨论:&#34; Are line breaks in XML attribute values valid?&#34;。我在这里引用了@JanCetkovsky的答案,以便于参考:

  

它是有效的,但是根据W3C的建议,你的XML解析器应该将所有空格字符规范化为空格(0x20) - 所以你的例子的输出会有所不同(你应该在输出上有新的行#34;& #13; &#34;,但在第一种情况下只有空格)。 [Source]

如果您可以控制XML文档结构(似乎您自己构建了XML),请将文本作为XML元素值而不是XML属性值:

.....
#add object element
obj = doc.createElement('object')
obj.setAttribute('name', 'obj1')

txt = 'Text\nsome text\nanother one\\and so on\n'
txt_node = doc.createTextNode(txt)
obj.appendChild(txt_node)
scene.appendChild(obj)
.....