从XML中提取的文本中剥离标签

时间:2011-03-21 18:49:14

标签: java xml-parsing

我正在解析XML文档。我getTextContent()来获取我想要的特定部分的文字。我得到的文字有像

这样的标签
<italic> </italic>
<sub> </sub>

..还有一些。我想剥离这些标签并保留文本,无论标签是什么。

我的文档看起来像这样

<article>
   <sec>Section 1</sec>  
   <sec>Section 2
      <title>Title1</title>
      <sec>
         <title>Subtitle1</title>
         <p>........<italic> </italic>...</p>
      </sec>
      <sec>
         <title>Subtitle2</title>
         <p>........<sub> </sub>...</p>
      </sec>
   </sec>
</article>

我需要<p>...</p>中没有标签的所有文字。 我该怎么办呢?我正在考虑识别所有标签并将其替换为""。但必须有更好的方法。

由于

2 个答案:

答案 0 :(得分:5)

您可以将此注册表应用于getTextContent()

的结果
String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

答案 1 :(得分:0)

您可以使用perl脚本浏览文件,然后使用s/ \< .* \> //xg;删除所有标记。