JSOUP不支持的charset异常

时间:2011-10-23 21:05:43

标签: java jsoup

我正在使用jsoup阅读以下页面:

http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312

使用以下代码:

Document doc = Jsoup.connect("http://valencia.loquo.com/cs/vivienda/piso-en-alquiler/312").get();

我收到此错误:

java.nio.charset.UnsupportedCharsetException: ISO-LATIN-1

我检查了HTML响应标题:

Status Code: 200
Date: Sun, 23 Oct 2011 20:10:02 GMT
Content-Encoding: gzip
X-Pad: avoid browser bug
Connection: Keep-Alive
Content-Length: 13890
Server: Apache/2.2.3 (Debian)
Vary: Accept-Encoding
Content-Type: text/html; charset=iso-latin-1
Keep-Alive: timeout=5, max=100

正如您所看到的,HTML响应显示 charset = iso-latin-1 可能就是我收到错误的原因。无论如何,我可以看到HTML身体的响应。有什么方法可以避免这个错误并获取文档(使用标准字符集)?

提前感谢您的帮助

Danilo的

2 个答案:

答案 0 :(得分:1)

您可以随时下载没有JSoup的文档,以编程方式转换编码(这里是link to the cookbook)并将转换后的String传递给JSoup。

答案 1 :(得分:1)

请参阅ISO_8859_1 ..

  

ISO拉丁字母第1号,a.k.a。 ISO-LATIN-1