抓取网站时如何解决403禁止的错误?

时间:2020-04-20 15:30:59

标签: python-3.x web-scraping request python-requests reuters

因此,我试图刮擦路透社的网站。经过大量文章后,它返回403错误。我认为这是针对机器人攻击/报废的某种预防措施。我尝试添加标题,但这没有帮助。另外,每当收到错误时,我在恢复之前将代码休眠了15分钟,但发生了相同的错误。我该如何处理?

我观察到的一件有趣的事情是,如果我发出一堆请求(不提取或处理返回的数据)直到收到403错误,请等待10分钟,然后再次开始运行,它可以正常工作。不知道为什么会这样。

0 个答案:

没有答案
相关问题