从xml解析的html标记之间提取文本

时间:2011-04-21 11:12:14

标签: java html xml

任何人都可以帮我从html标签中提取文字到纯文本吗?

我已经解析了一个xml并获得了一些输出作为具有html标签的主体现在我想删除标签并使用文本。

提前致谢!!!!

4 个答案:

答案 0 :(得分:2)

您可以使用像JSoup

这样的HTML解析器

例如 HTML是

<div style="height:240px;"><br>test: example<br>test1:example1</div>

您可以使用

获取html
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
div.html();

答案 1 :(得分:0)

尝试HTML Parser

如果HTML被转义,即&lt;而不是<,您可能需要先解码。

答案 2 :(得分:0)

考虑到您的要求,您可以尝试Jericho HTML Parser

看一下TextExtractor课程:

Using the default settings, the source segment: "<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>" produces the text "One Two Three"

答案 3 :(得分:0)

如果您只想从字符串中删除HTML标记,则可以执行以下操作:

String output = input.replaceAll("(?s)\\<.*?\\>", " ");