Question

我正在解析XML文档。我getTextContent()来获取我想要的特定部分的文字。我得到的文字有像

这样的标签

<italic> </italic>
<sub> </sub>

..还有一些。我想剥离这些标签并保留文本，无论标签是什么。

我的文档看起来像这样

<article>
   <sec>Section 1</sec>  
   <sec>Section 2
      <title>Title1</title>
      <sec>
         <title>Subtitle1</title>
         <p>........<italic> </italic>...</p>
      </sec>
      <sec>
         <title>Subtitle2</title>
         <p>........<sub> </sub>...</p>
      </sec>
   </sec>
</article>

我需要<p>...</p>中没有标签的所有文字。我该怎么办呢？我正在考虑识别所有标签并将其替换为""。但必须有更好的方法。

由于

Answer 1

您可以将此注册表应用于getTextContent（）

的结果

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

Answer 2

您可以使用perl脚本浏览文件，然后使用s/ \< .* \> //xg;删除所有标记。

从XML中提取的文本中剥离标签

2 个答案: