对于Scrapy搜索工具来说,哪个是最方便的方法来尊重robots.txt中的Crawl-Delay?

时间:2011-12-04 20:50:26

标签: robots.txt scrapy

是否有我可以切换的设置或DownloaderMiddleware我可以使用哪些设置强制执行robots.txt的抓取延迟设置?如果没有,我如何在刮刀中实现速率限制?

2 个答案:

答案 0 :(得分:0)

在Scrapy中有一个功能请求(#892)支持此功能,但目前尚未实现。

但是,#892包含指向代码片段的链接,您可以将其用作创建自己的实现的起点。

如果您这样做了,就可以完成任务,请考虑向Scrapy发送拉取请求以集成您的更改。

答案 1 :(得分:-4)

Spider可以或不能尊重robots.txt中的抓取延迟,不必为机器人解析robots.txt!

您可以使用防火墙来禁止在您的网站中积极爬行的IP。

你知道哪些机器人会给你带来麻烦吗?谷歌机器人或其他大型搜索引擎使用机器人尝试不溢出您的服务器。