Question

这就是我所拥有的 -

String html = "<p><b>Annie's and Lärabar</b></p>"

运行以下后

-

org.jsoup.nodes.Document doc = Jsoup.parse(html);
Element p= doc.select("p").first();
String s = p.text();
System.out.println(s);

输出 - "Annie's and L?rabar".

字符“ä”成了问号。

我的JVM环境是“iso-8859-1”，在我看来，Jsoup的默认编码是utf-8。我想在解析html字符串时强制Jsoup.parse（）使用“iso-8859-1”。

我阅读了API和googled示例，但我找不到任何一个示例，表明Jsoup.parse（）在解析字符串时实际上可以采用特定的编码？

有人可以帮忙吗？提前谢谢！

-Cyn

Answer 1

您可以将字符集设置为Document，如下所示

org.jsoup.nodes.Document doc = Jsoup.parse(html);
doc.charset(Charset charset);
Element p= doc.select("p").first();
String s = p.text();