应用错误收集

时间：2011-12-04 20:50:26

标签： robots.txt scrapy

是否有我可以切换的设置或DownloaderMiddleware我可以使用哪些设置强制执行robots.txt的抓取延迟设置？如果没有，我如何在刮刀中实现速率限制？

答案 0 :(得分：0)

在Scrapy中有一个功能请求（#892）支持此功能，但目前尚未实现。

但是，#892包含指向代码片段的链接，您可以将其用作创建自己的实现的起点。

如果您这样做了，就可以完成任务，请考虑向Scrapy发送拉取请求以集成您的更改。

答案 1 :(得分：-4)

Spider可以或不能尊重robots.txt中的抓取延迟，不必为机器人解析robots.txt！

您可以使用防火墙来禁止在您的网站中积极爬行的IP。

你知道哪些机器人会给你带来麻烦吗？谷歌机器人或其他大型搜索引擎使用机器人尝试不溢出您的服务器。