jsoup解析html标签属性

时间:2018-02-08 06:13:09

标签: java html jsoup

例如:

<html>
   <head></head>
   <body sometag='"'></body>
</html>

当我使用Jsoup解析这个html时:

Document doc = Jsoup.parse(html);
doc.outputSettings().prettyPrint(false);
System.out.println(doc.toString());

它将成为

<html>
   <head></head>
   <body sometag="&quot;"></body>
</html>

注意&#39;和&#34; ,我不想要它解析&#39;和&#34; ,我只需要它来获取一些文字 有没有办法避免jsoup解析这个。非常感谢

2 个答案:

答案 0 :(得分:0)

只是不要使用HTML解析器。改为使用XML解析器。

Document doc = Jsoup.parse(html, "", Parser.xmlParser());

答案 1 :(得分:0)

所以我使用不同的String转义玩了一下,最简单的方法是执行以下操作:

虽然这可能不是你所追求的,但我们会看到。

String html = "<html> <head> </head> <body sometag='\"'> </body> </html>";

Document doc = Jsoup.parse(html);
doc.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
System.out.println( StringEscapeUtils.unescapeXml( doc.toString() ) );