删除父节点并保留其子节点

时间:2014-02-12 10:36:41

标签: java xml dom

我想要删除链接标记并保留所有子级

输入xml:

  <P>
  <LINK TYPE="ERRATUM" DOI="">
    Der Kommentar zum Artikel Schaefer et al. in Heft 4/91 (S. 238) wurde
    nicht von PD Dr.
    <EM EMTYPE="ITALIC">M. Stöckle</EM>
    (Urologische Klinik, Mainz), sondern von PD Dr.
    <EM EMTYPE="ITALIC">O. Schofer</EM>
    (Kinderklinik der Universität, Mainz) verfasst.
  </LINK>
  </P>

输出xml:

  <P>

    Der Kommentar zum Artikel Schaefer et al. in Heft 4/91 (S. 238) wurde
    nicht von PD Dr.
    <EM EMTYPE="ITALIC">M. Stöckle</EM>
    (Urologische Klinik, Mainz), sondern von PD Dr.
    <EM EMTYPE="ITALIC">O. Schofer</EM>
    (Kinderklinik der Universität, Mainz) verfasst.

  </P>

我试过这段代码但没有成功!

private void visitRecursively(Node node, Document document, String tagToRemove) {

    // get all child nodes
    NodeList list = node.getChildNodes();
    for (int i = 0; i < list.getLength(); i++) {

        // get child node

        Node childNode = list.item(i);

        if(childNode != null){
            if(childNode.getNodeType() == Node.ELEMENT_NODE){
                if(childNode.getNodeName().equals(tagToRemove)){

                    NodeList nodeList = childNode.getChildNodes();
                    Node parentNode = childNode.getParentNode();
                    System.out.println("parent= "+parentNode.getNodeName());
                    for(int j = 0 ; j < nodeList.getLength() ;  ++j ){
                            parentNode.appendChild(nodeList.item(j));
                    }
                }
            }
        }
        visitRecursively(childNode, document, tagToRemove);
    }
}

谢谢!

1 个答案:

答案 0 :(得分:0)

对于基于行的格式化,我只是将文本解析为List并删除包含“<LINK”或“</LINK”的行。然后将List修剪为size,删除所有空行。

可能比乱搞NodeList的递归操作更快。