我正在尝试将一个子元素插入与前父元素具有相同文本的元素中,以便包装一个子元素。基本示例是我的输入:
<p>
<s>text</s>
<s>text</s>
<s>text</s>
</p>
我想要类似的东西(anno的内容来自NLP工具,不是很重要):
<p>
<s>
<orig>text</orig>
<anno>token1</anno>
</s>
<s>
<orig>text</orig>
<anno>token2</anno>
</s>
<s>
<orig>text</orig>
<anno>token3</anno>
</s>
</p>
anno元素会更容易,我不明白的是在内部创建一个子元素,其中包含以前拥有的文本。
使用不同的元素函数(addprevious,addnext,append,insert),我可以做以下事情:
<s>text<orig/></s>
<s>text<orig>text</orig></s>
<orig><s>text</s></orig>
但是这些都不是我想要的。我必须使用替换吗?在这种情况下,怎么办?谢谢!
答案 0 :(得分:2)
尝试一下:
import sys
from lxml import etree
tree = etree.parse(open("/tmp/so.xml"))
# Make sure you have enough annos to match the existing <s> elements.
annos = ["token1", "token2", "token3"]
for i, s in enumerate(tree.xpath("//s")):
# remember the text of the <s>
text = s.text
# remove the <s> from its parent
parent = s.getparent()
parent.remove(s)
# create a new <s>
new_s = etree.SubElement(parent, "s")
# create the <orig>, set the remembered text on it
orig = etree.SubElement(new_s, "orig")
orig.text = text
# create the <anon>, set the token on it
annon = etree.SubElement(new_s, "anon")
annon.text = annos[i]
with open("/tmp/out.xml", "wb") as f:
tree.write(f, pretty_print=True)
输出:
<p>
<s>
<orig>text</orig>
<anon>token1</anon>
</s>
<s>
<orig>text</orig>
<anon>token2</anon>
</s>
<s>
<orig>text</orig>
<anon>token3</anon>
</s>
</p>