JSOUP在Eclipse中抛出url状态503但是URL在浏览器中工作正常

时间:2013-06-10 19:07:04

标签: java amazon jsoup

特别是,这是与amazon.com网站具体。我收到了他们域名的503错误,但我可以成功解析其他域名。

我正在使用

Document doc = Jsoup.connect(url).timeout(30000).get();

连接到网址。

2 个答案:

答案 0 :(得分:3)

您必须设置用户代理

Document doc = Jsoup.connect(url).timeout(30000).userAgent("Mozilla/17.0").get();

(或其他人;最好选择浏览器用户代理)

否则你会被封锁。

另请参阅:Jsoup: select(div[class=rslt prod]) returns null when it shouldn't

答案 1 :(得分:0)

你可以尝试

val ret=Jsoup.connect(url)
  .userAgent("Mozilla/5.0 Chrome/26.0.1410.64 Safari/537.31")
  .timeout(2*1000)
  .followRedirects(true)
  .maxBodySize(1024*1024*3)    //3Mb Max
  //.ignoreContentType(true) //for download xml, json, etc
  .get()

它可能有效,也许amazon.com需要followRedirects设置为true。