我想从jsoup元素中删除脚本和标签

时间:2014-11-17 12:38:52

标签: java jsoup

我在元素中有以下内容 元素值;

org.jsoup.nodes.Element value=<div>
                  <h1>Harry potter and deathly hallows<h1>
                  some Info........
                  <a href="http://www.hp.com">greate person</a>
                  <a href="http://www.hp2.com">cast</a>
                  <script>
some function
                  </script>
                  </div>

我想删除所有和 这样我的价值就变成了

org.jsoup.nodes.Element value=<div>
                  <h1>Harry potter and deathly hallows<h1>
                  some Info........
                  </div>

3 个答案:

答案 0 :(得分:2)

我找到了,首先我将其转换为Document然后删除了

Document doc = Jsoup.parse(value.toString());
doc.select("a,script,.hidden,style,form,span").remove();

这是完整答案的链接:Extract and Clean HTML Fragment using HTML Parser (org.htmlparser)

答案 1 :(得分:0)

请尝试以下代码段:

Document doc = Jsoup.parse(value);//value is your variable having html content

System.out.println(doc.text());//gives you plain text

想要选择一个元素:

doc.select("h1").text();

答案 2 :(得分:0)

String html = "<p> <span> some </span> <em> text<a> sometext </a> sometext</em> </p>";
Document doc = Jsoup.parse(html);
String textContent=doc.text();

要了解更多信息,请参阅此answer

如果您想了解更多信息,请点击此处jsoup cookbook at official site