我想使用JDOM从URL解析XML文件。但是在尝试这个时:
SAXBuilder builder = new SAXBuilder();
builder.build(aUrl);
我得到了这个例外:
Invalid byte 1 of 1-byte UTF-8 sequence.
我认为这可能是BOM问题。所以我查看了源代码并在文件开头看到了BOM。我尝试使用aUrl.openStream()
从URL读取并使用Commons IO BOMInputStream删除BOM。但令我惊讶的是它没有检测到任何BOM。
我尝试从流中读取并写入本地文件并解析本地文件。我将 InputStreamReader 和 OutputStreamWriter 的所有编码设置为 UTF8 但是当我打开文件时它有疯狂的字符。
我认为问题在于源URL编码。但是当我在浏览器中打开URL并将XML保存在文件中并通过上述过程读取该文件时,一切正常。
我对此问题的可能原因表示感谢。
答案 0 :(得分:4)
该HTTP服务器正在以GZIP形式发送内容(Content-Encoding: gzip
;如果您不知道这意味着什么,请参阅http://en.wikipedia.org/wiki/HTTP_compression),因此您需要将aUrl.openStream()
包裹在{ {1}}将为您解压缩它。例如:
GZIPInputStream
根据后续评论编辑添加:如果您事先不知道该网址是否为GZIP,则可以这样写:
builder.build(new GZIPInputStream(aUrl.openStream()));
(警告:未经测试)然后使用:
private InputStream openStream(final URL url) throws IOException
{
final URLConnection cxn = url.openConnection();
final String contentEncoding = cxn.getContentEncoding();
if(contentEncoding == null)
return cxn.getInputStream();
else if(contentEncoding.equalsIgnoreCase("gzip")
|| contentEncoding.equalsIgnoreCase("x-gzip"))
return new GZIPInputStream(cxn.getInputStream());
else
throw new IOException("Unexpected content-encoding: " + contentEncoding);
}
。这基本上等同于上面的内容 - builder.build(openStream(aUrl.openStream()));
被明确记录为aUrl.openStream()
的简写 - 除了它在决定是否将流包装在{{1}之前检查aUrl.openConnection().getInputStream()
标头。 }}
答案 1 :(得分:0)
您可能会发现通过发送空白的Accept-Encoding标头可以避免处理编码的响应。请参阅http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html:“如果请求中不存在Accept-Encoding字段,则服务器可以假定客户端将接受任何内容编码。”这似乎发生在这里。