以下是传递给JSOUP的HTML字符串
<p id="pid">¨This is string using for testing</p>
Document doc = Jsoup.parse(htmlString);
String text = doc.getElementById("pid").text();
提取属性文本后,结果为
¨This is string using for testing
但问题是¨This
隐藏的十六进制字符被添加到其中。如果我在notepad ++ hexEditor ¨This
中查看字符串为c2a854686973
(¨This
)
答案 0 :(得分:0)
但问题是
¨This
隐藏的十六进制字符被添加到其中。
您可以更改加载HTML代码的方式。只要您提供字符集名称,Jsoup就会接受解析InputStream
。
String s = "<p id=\"pid\">¨This is string using for testing</p>";
Document doc = Jsoup.parse(new ByteArrayInputStream(s.getBytes()), "ASCII", "");
System.out.println(doc);
<html>
<head></head>
<body>
<p id="pid">¨This is string using for testing</p>
</body>
</html>