Org.jsoup.HttpStatusException:提取URL时发生HTTP错误。状态= 429,显示我何时解析了900个网址...并且消息停留了一段时间(如1个小时或更长时间)..这个问题有解决方案吗?还是在发生错误之前检测错误的方法?
答案 0 :(得分:2)
TL; DR
您的速率已受到限制。
这个问题有解决方案吗?
阅读要抓取的网站的条款和条件以了解以下信息:
如果1.1为“ no”,请停止尝试抓取该网站。
否则,请执行您的代码以保持在规定的速率限制内。例如,当您的抓取工具达到允许的请求限制时,将其设为sleep
,然后在下一个计量时间段内恢复发送请求。
还是在错误发生之前检测出错误的方法?
不。除了429响应外,该网站极有可能不会给您任何指示。 (但是您可以查看他们的文档...。)