Question

我正在尝试获取以下页面的源代码：http://www.amazon.com/gp/offer-listing/082470732X/ref=dp_olp_0?ie=UTF8&redirect=true&condition=all （请注意，如果您点击链接，亚马逊会将您带到另一个页面。要访问我有兴趣阅读的页面，请复制该链接并将其粘贴到浏览器中的空白标签页。谢谢！）

通常使用java.net API，我可以获得大多数URL的源代码几乎没有问题，但是对于上面的链接我什么也得不到。事实证明，连接生成的输入流是由gzip编码的，所以我尝试了以下内容：

URL url = new URL(urlString);
HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();
InputStream is = urlConnection.getInputStream();
HttpURLConnection.setFollowRedirects(true);
urlConnection.setRequestProperty("Accept-Encoding", "gzip, deflate");
String encoding = urlConnection.getContentEncoding();
if (encoding != null && encoding.equalsIgnoreCase("gzip")) {
     is = new GZIPInputStream(is);
} else if (encoding != null && encoding.equalsIgnoreCase("deflate")) {
     is = new InflaterInputStream((is), new Inflater(true));
}

但是这次我确定地得到了以下错误：

java.io.EOFException
at java.util.zip.GZIPInputStream.readUByte(GZIPInputStream.java:249)
at java.util.zip.GZIPInputStream.readUShort(GZIPInputStream.java:239)
at java.util.zip.GZIPInputStream.readHeader(GZIPInputStream.java:142)
at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:58)
at java.util.zip.GZIPInputStream.<init>(GZIPInputStream.java:67)
at domain.logic.ItemScraper.loadURL(ItemScraper.java:405)
at domain.logic.ItemScraper.main(ItemScraper.java:510)

有人能看出我的错吗？有没有其他方式来阅读这个特定的页面？有人可以解释一下为什么我的浏览器（firefox）可以读取它，但是我无法使用Java读取源代码？

提前致谢，最诚挚的问候，

Answer 1

您可以使用标准的BufferedReader来读取给定URL的Web服务器的响应。

URLIn = new BufferedReader(new InputStreamReader(new URL(URLOrFilename).openStream()));

然后使用......

while ((incomingLine = URLIn.readLine()) != null) {
 ...
}

...得到回应。

Answer 2

而不是

is = new GZIPInputStream(is);

试

is = new GZIPInputStream(urlConnection.getInputStream());

至于EOFException，如果你添加

urlConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24");

它会消失。

使用Java获取以下页面的源代码

2 个答案: