输入xml:
<P>
<LINK TYPE="ERRATUM" DOI="">
Der Kommentar zum Artikel Schaefer et al. in Heft 4/91 (S. 238) wurde
nicht von PD Dr.
<EM EMTYPE="ITALIC">M. Stöckle</EM>
(Urologische Klinik, Mainz), sondern von PD Dr.
<EM EMTYPE="ITALIC">O. Schofer</EM>
(Kinderklinik der Universität, Mainz) verfasst.
</LINK>
</P>
输出xml:
<P>
Der Kommentar zum Artikel Schaefer et al. in Heft 4/91 (S. 238) wurde
nicht von PD Dr.
<EM EMTYPE="ITALIC">M. Stöckle</EM>
(Urologische Klinik, Mainz), sondern von PD Dr.
<EM EMTYPE="ITALIC">O. Schofer</EM>
(Kinderklinik der Universität, Mainz) verfasst.
</P>
我试过这段代码但没有成功!
private void visitRecursively(Node node, Document document, String tagToRemove) {
// get all child nodes
NodeList list = node.getChildNodes();
for (int i = 0; i < list.getLength(); i++) {
// get child node
Node childNode = list.item(i);
if(childNode != null){
if(childNode.getNodeType() == Node.ELEMENT_NODE){
if(childNode.getNodeName().equals(tagToRemove)){
NodeList nodeList = childNode.getChildNodes();
Node parentNode = childNode.getParentNode();
System.out.println("parent= "+parentNode.getNodeName());
for(int j = 0 ; j < nodeList.getLength() ; ++j ){
parentNode.appendChild(nodeList.item(j));
}
}
}
}
visitRecursively(childNode, document, tagToRemove);
}
}
谢谢!
答案 0 :(得分:0)
对于基于行的格式化,我只是将文本解析为List并删除包含“<LINK
”或“</LINK
”的行。然后将List修剪为size,删除所有空行。
可能比乱搞NodeList的递归操作更快。