我在元素中有以下内容 元素值;
org.jsoup.nodes.Element value=<div>
<h1>Harry potter and deathly hallows<h1>
some Info........
<a href="http://www.hp.com">greate person</a>
<a href="http://www.hp2.com">cast</a>
<script>
some function
</script>
</div>
我想删除所有和 这样我的价值就变成了
org.jsoup.nodes.Element value=<div>
<h1>Harry potter and deathly hallows<h1>
some Info........
</div>
答案 0 :(得分:2)
我找到了,首先我将其转换为Document
然后删除了
Document doc = Jsoup.parse(value.toString());
doc.select("a,script,.hidden,style,form,span").remove();
这是完整答案的链接:Extract and Clean HTML Fragment using HTML Parser (org.htmlparser)
答案 1 :(得分:0)
请尝试以下代码段:
Document doc = Jsoup.parse(value);//value is your variable having html content
System.out.println(doc.text());//gives you plain text
想要选择一个元素:
doc.select("h1").text();
答案 2 :(得分:0)
String html = "<p> <span> some </span> <em> text<a> sometext </a> sometext</em> </p>";
Document doc = Jsoup.parse(html);
String textContent=doc.text();
要了解更多信息,请参阅此answer
如果您想了解更多信息,请点击此处jsoup cookbook at official site。