我正在解析XML文档。我getTextContent()
来获取我想要的特定部分的文字。我得到的文字有像
<italic> </italic>
<sub> </sub>
..还有一些。我想剥离这些标签并保留文本,无论标签是什么。
我的文档看起来像这样
<article>
<sec>Section 1</sec>
<sec>Section 2
<title>Title1</title>
<sec>
<title>Subtitle1</title>
<p>........<italic> </italic>...</p>
</sec>
<sec>
<title>Subtitle2</title>
<p>........<sub> </sub>...</p>
</sec>
</sec>
</article>
我需要<p>...</p>
中没有标签的所有文字。
我该怎么办呢?我正在考虑识别所有标签并将其替换为""
。但必须有更好的方法。
由于
答案 0 :(得分:5)
您可以将此注册表应用于getTextContent()
的结果String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");
答案 1 :(得分:0)
您可以使用perl脚本浏览文件,然后使用s/ \< .* \> //xg;
删除所有标记。