Jsoup避免unescpaing

时间:2018-04-19 15:14:52

标签: jsoup

我有一个包含以下内容的HTML页面

  

italiane& acirc;€” UFFICIO

我用

检索
Document doc = Jsoup.connect(myLocation).get()

然后使用

将一些部分提取为String
    doc.outputSettings().indentAmount(0).prettyPrint(false);
    final Element docContent = doc.selectFirst("#docContent");
    return docContent.html();

问题是,我没有使用原始html(作为上层),而是获得如下的可视版本

  

italiane - Ufficio

我尝试更改转义模式但没有成功。怎么可能实现呢?

1 个答案:

答案 0 :(得分:0)

问题来自发送UTF-8内容的远程内容,但声明为ISO-8859-1

解决方案是修复远程服务器或以后使用解决方法

return new String(Jsoup.connect(remoteUrl).ignoreContentType(true).method(Connection.Method.GET).execute().bodyAsBytes(),StandardCharsets.UTF_8)