抓狂并尊重robots.txt

时间:2019-03-22 10:48:22

标签: scrapy robots.txt

昨天我发现Scrapy默认情况下会遵守robots.txt文件(ROBOTSTXT_OBEY = True)。

如果我请求带有scrapy shell url的URL,并且有响应,是否意味着url不受robots.txt的保护?

1 个答案:

答案 0 :(得分:0)

根据文档,仅当您使用scrapy startproject命令创建项目时,默认情况下才启用它,否则应默认为False

https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots

回答您的问题,是的,scrapy shell命令确实遵守robots.txt中定义的settings.py配置。如果为ROBOTSTXT_OBEY = True,尝试在受保护的URL上使用scrapy shell命令将生成响应None

您还可以通过命令行通过robots.txt设置对其进行测试:

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"