标签: robots.txt scrapy
是否有我可以切换的设置或DownloaderMiddleware我可以使用哪些设置强制执行robots.txt的抓取延迟设置?如果没有,我如何在刮刀中实现速率限制?
DownloaderMiddleware
答案 0 :(得分:0)
在Scrapy中有一个功能请求(#892)支持此功能,但目前尚未实现。
但是,#892包含指向代码片段的链接,您可以将其用作创建自己的实现的起点。
如果您这样做了,就可以完成任务,请考虑向Scrapy发送拉取请求以集成您的更改。
答案 1 :(得分:-4)
Spider可以或不能尊重robots.txt中的抓取延迟,不必为机器人解析robots.txt!
您可以使用防火墙来禁止在您的网站中积极爬行的IP。
你知道哪些机器人会给你带来麻烦吗?谷歌机器人或其他大型搜索引擎使用机器人尝试不溢出您的服务器。