我有一个包含以下内容的HTML页面
italiane& acirc;€” UFFICIO
我用
检索Document doc = Jsoup.connect(myLocation).get()
然后使用
将一些部分提取为String doc.outputSettings().indentAmount(0).prettyPrint(false);
final Element docContent = doc.selectFirst("#docContent");
return docContent.html();
问题是,我没有使用原始html(作为上层),而是获得如下的可视版本
italiane - Ufficio
我尝试更改转义模式但没有成功。怎么可能实现呢?
答案 0 :(得分:0)
问题来自发送UTF-8内容的远程内容,但声明为ISO-8859-1
解决方案是修复远程服务器或以后使用解决方法
return new String(Jsoup.connect(remoteUrl).ignoreContentType(true).method(Connection.Method.GET).execute().bodyAsBytes(),StandardCharsets.UTF_8)