Question

任何人都可以帮我从html标签中提取文字到纯文本吗？

我已经解析了一个xml并获得了一些输出作为具有html标签的主体现在我想删除标签并使用文本。

提前致谢!!!!

Answer 1

您可以使用像JSoup

这样的HTML解析器

例如 HTML是

<div style="height:240px;"><br>test: example<br>test1:example1</div>

您可以使用

获取html

Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
div.html();

Answer 2

尝试HTML Parser。

如果HTML被转义，即<而不是<，您可能需要先解码。

Answer 3

考虑到您的要求，您可以尝试Jericho HTML Parser

看一下TextExtractor课程：

Using the default settings, the source segment: "<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>" produces the text "One Two Three"。

Answer 4

如果您只想从字符串中删除HTML标记，则可以执行以下操作：

String output = input.replaceAll("(?s)\\<.*?\\>", " ");

从xml解析的html标记之间提取文本

4 个答案: