如果sgml中包含特定标记,则使用java删除sgml中的父标记

时间:2016-03-08 13:55:10

标签: java regex parsing sgml

我想删除父标记,如果标记中只包含注释标记。

示例:

输入:

<data>
<subdata>
<l1item>
    <note>
        <para>hello
        </para>
    </note>
</l1item>
</subdata>
<subdata>
<l2item>
    <para> dont delete 
    </para>
</l2item>
<l3item>
    <note>
        <para>hello
        </para>
    </note>
    <para> dont delete 
    </para>
</l3item>
</subdata>
</data>

预期产出:

<data>
<subdata>
<note>
<para>hello
</para>
</note>
</subdata>
<subdata>
<l2item>
<para> dont delete 
</para>
</l2item>
<l3item>
    <note>
        <para>hello
        </para>
    </note>
    <para> dont delete 
    </para>
</l3item>
</subdata>
</data>

在上面的例子中,如果l1item标签中只有note标签,则删除l1item标签,因为它有para标签而没有删除l2item而且没有删除l3item,因为它有note标签和para标签

所以我的要求就像我想要删除l1item或l2item或l3item,如果它只有note标记,并且它有一些其他标记或note标记以及其他不应删除的标记。

1 个答案:

答案 0 :(得分:0)

你可以在这里使用Jsoup,虽然它不是主要一个SGML解析器。

我们正在寻找note个元素,这些元素是他们各自父母的唯一孩子。这可以翻译为:

note:only-child

当我们发现其中一个音符时,我们可以找到它的父音色并用找到的音符替换这个音符。我们将使用Node::replaceWith方法执行此操作:

foundNote.parent().replaceWith(foundNote);

让我们将所有内容放在下面的示例代码中:

示例代码

String sgml = "<data>\n<subdata>\n<l1item>\n    <note>\n        <para>hello\n        </para>\n    </note>\n</l1item>\n</subdata>\n<subdata>\n<l2item>\n    <para> dont delete \n    </para>\n</l2item>\n<l3item>\n    <note>\n        <para>hello\n        </para>\n    </note>\n    <para> dont delete \n    </para>\n</l3item>\n</subdata>\n</data>";

Document doc = Parser.xmlParser().parseInput(sgml, "");

System.out.println("BEFORE:\n" + doc.html());

Elements onlyChildNotes = doc.select("note:only-child");

for (Element note : onlyChildNotes) {
    Element noteParent = note.parent();
    if (noteParent != null) {
        noteParent.replaceWith(note);
    }
}

System.out.println("AFTER:\n" + doc.html());

输出

BEFORE:
<data> 
 <subdata> 
  <l1item> 
   <note> 
    <para>
     hello 
    </para> 
   </note> 
  </l1item>
 </subdata>
  (...)

AFTER:
<data> 
 <subdata> 
  <note> 
   <para>
    hello 
   </para> 
  </note> 
 </subdata> 
 (...)