jsoup提取URL错误。状态= 503仅在Heroku上

时间:2019-10-26 23:26:58

标签: java heroku jsoup

使用Jsoup通过本地主机连接到https://rateyourmusic.com时,效果很好,但是在Heroku上,即使使用userAgent,我也总是收到错误503

.1

Heroku日志:

String url = "https://rateyourmusic.com/charts/top/album/2016";
Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/70.0").followRedirects(true).timeout(100000).ignoreContentType(true).get();

如果我尝试使用Jsoup连接到Heroku上的另一个网站,那么它会起作用。

谢谢。

1 个答案:

答案 0 :(得分:1)

这不是您的代码中的问题。服务器返回错误503。这意味着服务器对您的请求或客户端不满意,并拒绝返回正常响应。可能是Heroku的原因,因此它被屏蔽以避免刮刮其网站。
要100%确保您可以使用其他方法下载此页面的内容,以避免使用Jsoup,请使用纯HttpClient甚至纯Java: How to download and save a file from Internet using Java?
如果结果相同,则确认它们阻止了Heroku。您可以尝试通过某些代理进行连接以解决此问题。