用lxml插入包装子元素

时间:2018-10-11 08:14:09

标签: python xml lxml

我正在尝试将一个子元素插入与前父元素具有相同文本的元素中,以便包装一个子元素。基本示例是我的输入:

<p>
    <s>text</s>
    <s>text</s>
    <s>text</s>
</p>

我想要类似的东西(anno的内容来自NLP工具,不是很重要):

<p>
    <s>
        <orig>text</orig>
        <anno>token1</anno>
    </s>
    <s>
        <orig>text</orig>
        <anno>token2</anno>
    </s>
    <s>
        <orig>text</orig>
        <anno>token3</anno>
    </s>
</p>

anno元素会更容易,我不明白的是在内部创建一个子元素,其中包含以前拥有的文本。

使用不同的元素函数(addprevious,addnext,append,insert),我可以做以下事情:

    <s>text<orig/></s>
    <s>text<orig>text</orig></s>
    <orig><s>text</s></orig>

但是这些都不是我想要的。我必须使用替换吗?在这种情况下,怎么办?谢谢!

1 个答案:

答案 0 :(得分:2)

尝试一下:

import sys

from lxml import etree

tree = etree.parse(open("/tmp/so.xml"))

# Make sure you have enough annos to match the existing <s> elements.
annos = ["token1", "token2", "token3"]

for i, s in enumerate(tree.xpath("//s")):
    # remember the text of the <s>
    text = s.text

    # remove the <s> from its parent
    parent = s.getparent()
    parent.remove(s)

    # create a new <s>
    new_s = etree.SubElement(parent, "s")

    # create the <orig>, set the remembered text on it
    orig = etree.SubElement(new_s, "orig")
    orig.text = text

    # create the <anon>, set the token on it
    annon = etree.SubElement(new_s, "anon")
    annon.text = annos[i]

with open("/tmp/out.xml", "wb") as f:
    tree.write(f, pretty_print=True)

输出:

<p>
  <s>
    <orig>text</orig>
    <anon>token1</anon>
  </s>
  <s>
    <orig>text</orig>
    <anon>token2</anon>
  </s>
  <s>
    <orig>text</orig>
    <anon>token3</anon>
  </s>
</p>