任何人都可以帮我从html标签中提取文字到纯文本吗?
我已经解析了一个xml并获得了一些输出作为具有html标签的主体现在我想删除标签并使用文本。
提前致谢!!!!
答案 0 :(得分:2)
您可以使用像JSoup
这样的HTML解析器例如 HTML是
<div style="height:240px;"><br>test: example<br>test1:example1</div>
您可以使用
获取htmlDocument document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();
div.html();
答案 1 :(得分:0)
尝试HTML Parser。
如果HTML被转义,即<
而不是<
,您可能需要先解码。
答案 2 :(得分:0)
考虑到您的要求,您可以尝试Jericho HTML Parser
看一下TextExtractor课程:
Using the default settings, the source segment:
"<div><b>O</b>ne</div><div title="Two"><b>Th</b><script>//a script </script>ree</div>"
produces the text "One Two Three"
。
答案 3 :(得分:0)
如果您只想从字符串中删除HTML标记,则可以执行以下操作:
String output = input.replaceAll("(?s)\\<.*?\\>", " ");