我正在使用jsoup阅读以下页面:
http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312
使用以下代码:
Document doc = Jsoup.connect("http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312").get();
我收到此错误:
java.nio.charset.UnsupportedCharsetException: ISO-LATIN-1
我检查了HTML响应标题:
Status Code: 200
Date: Sun, 23 Oct 2011 20:10:02 GMT
Content-Encoding: gzip
X-Pad: avoid browser bug
Connection: Keep-Alive
Content-Length: 13890
Server: Apache/2.2.3 (Debian)
Vary: Accept-Encoding
Content-Type: text/html; charset=iso-latin-1
Keep-Alive: timeout=5, max=100
正如您所看到的,HTML响应显示 charset = iso-latin-1 可能就是我收到错误的原因。无论如何,我可以看到HTML身体的响应。有什么方法可以避免这个错误并获取文档(使用标准字符集)?
提前感谢您的帮助
Danilo的
答案 0 :(得分:1)
您可以随时下载没有JSoup的文档,以编程方式转换编码(这里是link to the cookbook)并将转换后的String传递给JSoup。
答案 1 :(得分:1)
请参阅ISO_8859_1 ..
ISO拉丁字母第1号,a.k.a。 ISO-LATIN-1