HTTP提取网址,状态= 429

时间:2019-06-08 22:47:36

标签: java parsing jsoup http-status-code-429

Org.jsoup.HttpStatusException:提取URL时发生HTTP错误。状态= 429,显示我何时解析了900个网址...并且消息停留了一段时间(如1个小时或更长时间)..这个问题有解决方案吗?还是在发生错误之前检测错误的方法?

1 个答案:

答案 0 :(得分:2)

TL; DR

您的速率已受到限制。


  

这个问题有解决方案吗?

  1. 阅读要抓取的网站的条款和条件以了解以下信息:

    1. 是否允许刮擦
    2. 如果允许,则可接受的请求速率。
  2. 如果1.1为“ no”,请停止尝试抓取该网站。

  3. 否则,请执行您的代码以保持在规定的速率限制内。例如,当您的抓取工具达到允许的请求限制时,将其设为sleep,然后在下一个计量时间段内恢复发送请求。

  

还是在错误发生之前检测出错误的方法?

不。除了429响应外,该网站极有可能不会给您任何指示。 (但是您可以查看他们的文档...。)