Question

我想下载亚马逊的书籍＆＃39;图片，我有一个书籍数据库; 我想找到这些书＆＃39;来自亚马逊的图片。所以我用Jsoup找到它; 但是当我运行程序时，它发生了一个错误：

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=503, URL=http://www.amazon.cn/s?ie=UTF8&page=1&rh=n%3A658390051%2Ck%3AA%20perfectly%20matched%20anisotropic%20absorber%20for%20use%20as%20an%20absorbing%20boundary%20condition
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:537)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:534)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:493)
    at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:205)
    at org.jsoup.helper.HttpConnection.get(HttpConnection.java:194)
    at util.ExtractService.extract(ExtractService.java:75)

如何修复它？还有其他方法来解决这个问题吗？蟒？

Answer 1

HTTP错误503意味着“服务不可用”错误。

尝试检查任何连接问题： 1.您的互联网连接 2.您需要使用任何代理设置吗？ 3.您是否有严格的防火墙设置可以阻止您的Jsoup连接？

阳光下可能导致JVM与网站之间连接失败的其他任何内容。

Answer 2

我尝试了一个用户代理，它运行顺畅。

Document document = Jsoup
                .connect("https://www.amazon.com/")
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.38 Safari/537.36")
                .get();

希望有所帮助！

Answer 3

HTTP错误503表示“服务不可用”。可能有一般原因，包括Internet连接，相关的防火墙，机器上的代理设置，服务器繁忙以及服务器正在维护。

尽管这些是最可能的原因，但是在另一种情况下，服务器已使用Jsoup作为机器人检测到Web抓取。因此，服务器可以防止Web抓取并将其简单地暗示为503错误。

如何在使用Jsoup从Amazon查找数据时修复503错误

3 个答案: