Question

在抓取https://www.netflix.com等网站时，被robots.txt禁止访问：https：//www.netflix.com/>

错误：未下载任何回复：https://www.netflix.com/

Answer 1

在2016-05-11推出的新版本（scrapy 1.1）中，抓取首先在抓取之前下载robots.txt。要使用ROBOTSTXT_OBEY

更改settings.py中的此行为更改

ROBOTSTXT_OBEY=False

Answer 2

您需要确保的第一件事是您在请求中更改用户代理，否则将默认阻止默认用户代理。

Answer 3

Netflix的使用条款状态：

您还同意不回避，删除，更改，停用，降级或破坏Netflix服务中的任何内容保护；使用任何机器人，蜘蛛，刮板或其他自动化方式访问Netflix服务；

他们设置了robots.txt来阻止网页抓取工具。如果您将settings.py中的设置覆盖为ROBOTSTXT_OBEY=False，那么您违反了它们的使用条款，可能会导致诉讼。