JSOUP:HTML符号问题¨

时间:2016-04-21 13:06:01

标签: java html-parsing jsoup

以下是传递给JSOUP的HTML字符串

<p id="pid">&uml;This is string using for testing</p>

Document doc = Jsoup.parse(htmlString);
String text = doc.getElementById("pid").text();

提取属性文本后,结果为

¨This is string using for testing

但问题是¨This隐藏的十六进制字符被添加到其中。如果我在notepad ++ hexEditor ¨This中查看字符串为c2a854686973¨This

1 个答案:

答案 0 :(得分:0)

  

但问题是¨This隐藏的十六进制字符被添加到其中。

您可以更改加载HTML代码的方式。只要您提供字符集名称,Jsoup就会接受解析InputStream

样品

String s = "<p id=\"pid\">&uml;This is string using for testing</p>";
Document doc = Jsoup.parse(new ByteArrayInputStream(s.getBytes()), "ASCII", "");
System.out.println(doc);

输出

<html>
 <head></head>
 <body>
  <p id="pid">&uml;This is string using for testing</p>
 </body>
</html>