应用错误收集

请参阅scrapy faq page上的说明：

避免被禁止   一些网站采取某些措施来防止机器人抓取它们，具有不同程度的复杂性。绕过这些措施可能既困难又棘手，有时可能需要特殊的基础设施。如有疑问，请考虑联系商业支持。

以下是处理这类网站时要记住的一些提示：


从浏览器中的众所周知的池中轮换您的用户代理（谷歌周围获取它们的列表）

禁用Cookie（请参阅COOKIES_ENABLED），因为某些网站可能会使用Cookie来发现机器人行为

使用下载延迟（2或更高）。请参阅DOWNLOAD_DELAY设置。   如果可能，请使用Google缓存来抓取网页，而不是直接点击网站

使用一组旋转IP。例如，免费的Tor项目或像ProxyMesh这样的付费服务

使用高度分布的下载器来绕过内部禁令，因此您可以专注于解析干净的页面。这种下载程序的一个例子是Crawlera


如果您仍然无法阻止机器人被禁止，请考虑联系商业支持。

Python Scrapy - IP网络掩蔽

1 个答案: