我正在尝试在称为对象的元素中编写和读回一组字符串,这些元素有两个属性name
(简单字符串)和body
正文是一个带有特殊字符的字符串“\ n “和”\“我正在使用以下代码来编写xml文件:
from xml.dom.minidom import Document
doc = Document()
root = doc.createElement('data')
doc.appendChild(root)
#create a scene
scene = doc.createElement('scene')
root.appendChild(scene)
#add object element
object = doc.createElement('object')
object.setAttribute('name', 'obj1')
txt= 'Text\nsome text\nanother one\\and so on\n'
object.setAttribute('body',txt )
scene.appendChild(object)
#write to a file
file_handle = open("filename.xml","wb")
file_handle.write(bytes(doc.toprettyxml(indent='\t'), 'UTF-8'))
file_handle.close()
并生成此文件
<?xml version="1.0" ?>
<data>
<scene>
<object body="Text
some text
another one\and so on
" name="obj1"/>
</scene>
</data>
和解析:
filepath = 'file.xml'
dom = minidom.parse(filepath)
scenes =dom.getElementsByTagName('scene')
for scene in scenes:
txt_objs =scene.getElementsByTagName('object')
for obj in txt_objs:
obj_name = obj.getAttribute('name')
obj_body = obj.getAttribute('body')
print(obj_name," ",obj_body)
解析器的输出与存储的换行特殊字符丢失不一致,如何保持与输入相同的输出
#parser output
obj1 Text some text another one\and so on
使用特殊字符存储和检索字符串的正确方法是什么?
答案 0 :(得分:1)
minidom演示的行为与W3C recommendation对齐。请参阅以下讨论:&#34; Are line breaks in XML attribute values valid?&#34;。我在这里引用了@JanCetkovsky的答案,以便于参考:
它是有效的,但是根据W3C的建议,你的XML解析器应该将所有空格字符规范化为空格(0x20) - 所以你的例子的输出会有所不同(你应该在输出上有新的行#34;& #13; &#34;,但在第一种情况下只有空格)。 [Source]
如果您可以控制XML文档结构(似乎您自己构建了XML),请将文本作为XML元素值而不是XML属性值:
.....
#add object element
obj = doc.createElement('object')
obj.setAttribute('name', 'obj1')
txt = 'Text\nsome text\nanother one\\and so on\n'
txt_node = doc.createTextNode(txt)
obj.appendChild(txt_node)
scene.appendChild(obj)
.....