Question

昨天我发现Scrapy默认情况下会遵守robots.txt文件（ROBOTSTXT_OBEY = True）。

如果我请求带有scrapy shell url的URL，并且有响应，是否意味着url不受robots.txt的保护？

Answer 1

根据文档，仅当您使用scrapy startproject命令创建项目时，默认情况下才启用它，否则应默认为False。

回答您的问题，是的，scrapy shell命令确实遵守robots.txt中定义的settings.py配置。如果为ROBOTSTXT_OBEY = True，尝试在受保护的URL上使用scrapy shell命令将生成响应None。

您还可以通过命令行通过robots.txt设置对其进行测试：

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"